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乔 希 . 帕 特 森 








本 书 内 容 


本 书 前 四 章 着 上 腿 于 提供 足够 的 理论 和 知识 ， 为 你 (实践 者 ) 阅读 本 书 剩余 内 容 打下 基础 。 
后 五 章 带 领 你 使 用 DL4J 进行 一 系列 深度 学 习 的 实践 : 

建立 深层 网 络 ; 

高 级 调 优 技术 ， 

各 种 数据 类 型 的 向 量化 ， 

在 Spark 上 运行 深度 学 习 工 作 流 。 


























DL4J 是 Deeplearning4j 的 缩写 
在 本 书 中 ，DL4J 和 Deeplearning4j 含义 相同 ， 指 的 都 是 Deeplearning4j 库 的 
工具 套件 。 














之 所 以 这 样 组 织 本 书 的 内 容 ， 是 因为 我 们 相信 存在 这 样 的 需求 ， 即 一 本 既 洱 盖 “ 足 够 的 理 
论 ”， 同 时 又 提供 足够 的 实践 ， 使 得 读者 能 够 构建 生产 级 别 的 深度 学 习 工 作 流 的 书 。 我 们 
认为 这 本 书 双管齐下 ， 很 好 地 满足 了 这 个 需求 。 
第 1 章 回 顾 了 机 器 学 习 ， 尤 其 是 深度 学 习 的 概念 ， 以 期 快速 地 帮助 读者 为 阅读 后 续 章 市 打 
下 基础 。 我 们 设置 这 一 章 ， 是 为 了 让 大 量 的 初学 者 复习 或 者 了 解 这 些 概念 ， 希 望 本 书 能 够 
帮助 到 最 广泛 的 群体 。 
在 此 基础 上 ， 第 2 章 介绍 了 神经 网 络 的 基础 知识 。 这 一 章 的 主要 内 容 是 神经 网 络 的 理论 ， 
我 们 会 以 易于 理解 的 方式 讲述 这 些 知识 。 第 3 章 更 进一步 ， 带 你 快速 了 解 深层 网 络 是 如 何 
从 神经 网 络 演变 而 来 的 。 第 4 章 介绍 了 4 个 主流 的 深层 网 络 架构 ， 并 且 为 阅读 本 书后 续 内 
容 提 供 了 基础 。 
第 5 章 通过 一 系列 Java 代码 的 例子 ， 带 领 你 运用 在 本 书 前 半 部 分 学 到 的 技术 。 第 6 章 和 
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第 7 章 阐 述 了 普通 神经 网 络 调 优 的 基础 知识 ， 以 及 如 何 对 特定 的 深层 网 络 架 构 调 优 。 这 两 
章 都 与 平台 无 关 ， 适合 使 用 任何 深度 学 习 库 的 实践 者 阅读 。 第 8 章 回 顾 了 向 量化 技术 ， 还 
简要 介绍 了 如 何 使 用 DataVec (DL4J 的 ETL 及 向 量化 工作 流 工具 )。 第 9 章 介 绍 了 如 何在 
Spark 和 Hadoop 上 直接 使 用 DL4J， 展 示 了 3 个 实际 的 例子 ， 这 些 例子 可 以 在 你 的 Spark 
集群 上 运行 。 
书后 提供 了 多 个 附录 ， 涵 盖 了 与 本 书 主体 内 容 相 关 但 不 其 直接 的 主题 。 这 些 主 题 包括 : 
。 人 工 智能 ，; 
使 用 Maven 管理 DL4J 工程 ; 
使 用 GPU 进行 训练 ， 
。 使 用 ND4J API; 
。 其 他 主题 。 


位 电 (6 re 过 39 

谁 是 “实践 者 

如 今 “数据 科学 ”这 个 词 还 没有 明确 的 定义 ， 并 且 经 常 被 用 于 各 种 场景 。 和 当今 计算 机 科 
学 中 的 许多 术语 一 样 ， 数 据 科学 和 人 工 智能 (AI) 的 范围 也 非常 宽广 和 模糊 ， 这 主要 是 由 
于 机 器 学 习 已 经 扩展 到 了 几乎 所 有 领域 。 
这 种 扩展 与 (20 世纪 90 年 代 ) 万 维 网 把 HTML 带 到 各 个 行业 并 把 许多 新 人 带 入 技术 领域 
有 相似 之 处 。 同 样 ， 每 天 都 有 各 种 职业 的 人 一 一 工程 师 、 统 计 学 家 、 分 析 师 、 艺 术 家 
进入 机 器 学 习 领 域 。 我 们 编写 本 书 的 目标 就 是 为 了 普及 深度 学 习 以 及 机 器 学 习 ， 让 更 多 人 
了 解 它们 。 

如 果 你 觉得 这 个 主题 很 有 趣 ， 而 且 正在 阅读 这 个 前 言 ， 那 么 你 就 是 实践 者 ， 本 书 就 是 为 你 
准备 的 。 


Ca :二 
目标 读者 
与 那些 围绕 着 小 程序 的 构建 来 推进 的 图 书 不 同 ， 本 书 选 择 从 介绍 一 系列 基础 知识 开始 ， 带 
领 你 完整 地 走 过 深 度 学 习 的 旅程 。 
我 们 发 现 有 太 多 的 书 忽略 了 那些 企业 中 的 实践 者 经 常 需要 快速 复习 的 核心 主题 。 基 于 在 机 
器 学 习 领 域 的 经 验 ， 我 们 决定 从 入 门 级 别 的 实践 者 经 常 需要 温习 的 内 容 开 始 ， 以 便 更 好 地 
支持 他 们 的 深度 学 习 工程 。 
你 可 能 想 跳 过 第 1 章 和 第 2 章 ， 直 奔 深 度 学 习 基 础 知识 相关 章节 。 但 我 们 希望 你 不 要 跳 
过 ， 因 为 它们 提供 了 基本 的 理论 和 原理 ， 能 帮助 你 顺利 地 开始 学 习 更 加 艰深 的 深度 学 习 主 
题 。 我 们 为 不 同 背 景 的 读者 提供 了 一 些 阅 读 建议 。 


企业 中 的 机 器 学 习 实 践 者 


我 们 把 这 一 类 读者 细 分 为 以 下 两 组 : 


















































































































































。 在 职 数据 科学 家 ; 

。 Java 工程 师 。 

在 职 数 据 科 学 家 

这 类 读者 通常 已 经 建立 过 模型 ， 而 且 非 常熟 悉数 据 科学 领域 。 如 果 你 属于 这 一 类 读者 ， 那 
么 你 很 可 能 会 跳 过 第 1 章 ， 并 准备 快速 地 浏览 第 2 章 。 我 们 建议 你 从 第 3 章 开始 阅读 ， 因 
为 你 很 可 能 已 经 为 学 习 深 层 网 络 的 基础 知识 学 习 做 好 了 准备 。 

Java 工 程 师 

Java 工程 师 通 常 负责 将 机 器 学 习 的 代码 与 生产 系统 集成 。 如 果 你 属于 这 一 类 读者 ， 我 们 建议 
你 从 第 1 章 开始 阅读 ， 因 为 这 会 帮助 你 更 好 地 理解 数据 科学 的 术语 。 你 应 该 也 会 对 附录 玉 
的 内 容 非常 感 兴 趣 ， 因 为 模型 评分 代码 的 集成 通常 与 ND4J API 直接 相关 。 


企业 经 营 者 

我 们 的 一 些 试 读者 是 财富 500 强 企 业 的 经 营 者 ， 他 们 对 本 书 内容 非 常 满 意 ， 觉 得 它 能 帮助 
自己 更 好 地 了 解 深 度 学 习 领 域 正在 发 生 什么 。 一 位 经 营 者 评论 说 ， 他 大 学 毕业 已 有 一 段 时 
间 ， 而 第 1 章 对 机 器 学 习 和 深度 学 习 的 概念 做 了 很 好 的 回顾 。 如 果 你 是 一 位 经 营 者 ， 我 们 
建议 你 从 快速 浏览 第 1 章 开始 ， 这 会 帮助 你 回顾 一 些 术 语 。 不 过 你 可 能 想 跳 过 那些 重点 讲 
解 API 和 示例 代码 的 章节 。 


学 者 

如 果 你 是 一 名 学 者 ， 可 能 想 跳 过 第 1 章 和 第 2 章 ， 因 为 在 学 校 已 经 学 
该 会 对 神经 网 络 调 优 以 及 特定 架构 调 优 的 相关 章节 很 感 兴趣 ， 因 为 这 
越 了 任何 具体 的 深度 学 习 实 现 。 如 果 你 想 在 Java 虚拟 机 (JVM) 上 进 
算 ， 那 么 ND4 的 相关 内 容 你 应 该 也 会 感 兴趣 。 


排版 约定 

本 书 使 用 了 下 列 排版 约定 。 

。 黑体 字 
表示 名 词 和 重点 强调 的 内 容 。 

。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 正 文中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关 
键 字 等 程序 元 素 ， 还 用 于 表示 模块 名 和 包 名 、 应 该 由 用 户 直接 输入 的 命令 或 其 他 文本 ， 
以 及 命令 的 输出 。 

。 等 宽 斜 体 (constant width italic) 
表示 应 该 被 替换 为 用 户 提供 的 值 或 者 由 上 下 文 确定 的 值 的 文本 。 








































































































该 图 标 表 示 提 示 或 建议 。 

















使 用 示例 代码 


辅助 材料 (虚拟 机 、 数 据 、 脚 本 和 自 定义 命令 行 工 具 等 ) 可 以 从 https://github.com/ 
deeplearning4j/oreilly-book-dl4j-examples 下 载 。 


本 书 的 目的 在 于 帮助 你 完成 工作 。 一 般 来 说 ， 你 可 以 在 你 的 程序 和 文档 中 使 用 本 书 的 代 
码 。 只 要 不 是 大 规模 地 复制 代码 ， 你 就 不 需要 联系 我 们 获得 授权 。 举 例 而 言 ， 你 写 的 一 个 
程序 邓 用 到 了 本 书 的 几 个 代码 片 以 ， 这 不 需要 获得 授权 。 但 是 ， 如 果 你 把 书 中 的 示例 代码 刻 
录 到 CD-ROM， 并 拿 去 出 售 和 分 发 ， 则 需要 获得 授权 。 在 回答 问题 时 引用 本 书 以 及 本 书 的 
示例 代码 无 须 获 得 授权 。 但 如 果 要 在 你 的 产品 文档 里 收录 本 书 中 的 大 量 示 例 代码 ， 则 需要 
获得 授权 。 

欢迎 你 在 使 用 本 书 的 示例 代码 时 注 明 出 处 ， 但 这 不 是 强制 要 求 。 通 常 要 注 明 书 名 、 作 者 、 
出 版 社 和 ISBN。 例如: Deep Learning: A Practitioner’s Approach by Josh Patterson and Adam 
Gibson (O’Reilly). Copyright 2017 Josh Patterson and Adam Gibson, 978-1-4919-1425-0。 


如 果 你 认为 你 对 示例 代码 的 使 用 不 在 合理 使 用 或 上 述 无 须 授权 的 范围 之 内 ， 那 么 请 通过 
permissions@oreilly.com 联系 我 们 。 


补充 说 明 
在 Java 代码 示例 中 ， 我 们 经 常 省 略 导 入 语句 。 你 可 以 在 实际 的 代码 库 中 看 到 完整 的 导入 列 
表 。DL4J、ND4J、DataVec 和 更 多 的 API 信息 可 在 以 下 网 站 获得 




















http:/deeplearning4j.org/documentation 
你 可 以 在 以 下 网 址 找到 所 有 代码 示例 : 
https:/github.comy/deeplearning4j/oreilly-book-dl4j-examples 





有 关 DL4J 系列 工具 的 更 多 资源 ， 请 查看 以 下 网 站 : 
http:/deeplearning4j.org 


O'Reilly Safari 


4 S f Safari (之 前 称 作 Safari Books Online) 是 一 个 针对 企业 、 政 府 、 教 
日 | aa 站 |。 育才 和 个 人 的 会 员 制 培训 和 参考 平台 。 
会 员 可 以 访问 来 自 250 多 家 出 版 商 的 上 千 种 图 书 、 培 训 视 频 、 学 习 路 径 、 互 动 式 教程 和 


精 选 播放 列表 ， 这 些 出 版 商 包括 O’Reilly Media、Harvard Business Review、Prentice Hall 
Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、 








Adobe、Focal Press、Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、 Packt、 Adobe Press、 FT Press、 Apress、Manning、New Riders、McGraw-Hill、 
Jones & Bartlett、Course Technology 等 。 


要 了 解 更 多 信息 ， 可 以 访问 http://www.oreilly.com/safari。 
联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 写成 铭 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京 ) 有限 公司 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 ea. com。 如 果 你 发 
现任 何 错误 、 明 显 的 距 漏 或 困惑 之 处 ， 或 者 有 任何 改进 建议 ， 请 给 Josh Patterson 发 送 电 子 
邮件 : jpatterson@floe.tv。 


O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 书 的 相关 信息 ， 包 括 勘误 表 "、 示 例 
代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : http://shop.oreilly.com/product/0636920035343.do 


要 了 解 更 多 O’Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : http://www. 


oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 





























请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 





注 1: 本 书 中 文 版 的 勘误 请 到 http:/www.ituring.com.cn/book/2542 查看 和 提交 。 一 一 编者 注 








我 们 的 YouTube 视频 地 址 如 下 : http:Wwww.youtube.comyoreillymedia 
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提供 了 反馈 ， 还 为 卷 积 神经 网 络 的 内 部 工作 原理 编写 了 注释 。 
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第 1 章 
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于 细微 处 见 真 章 。 


2 
1.1 学 习 的 机 器 
过 去 十 年 ， 人 们 对 机 器 学 习 的 兴趣 旦 爆炸 式 增长 。 几 乎 每 天 都 会 在 计算 机 科学 课程 、 行 业 
会 议 以 及 《华尔街 日 报 》 中 遇 到 “机 器 学 习 ” 这 个 词 ， 在 所 有 关于 机 器 学 习 的 谈论 中 ， 人 
们 常常 把 机 器 学 习 能 够 做 到 的 事情 和 他 们 期 望 它 做 到 的 事情 混为一谈 。 实 际 上 ， 机 器 学 习 
是 使 用 算法 从 原始 数据 中 提取 信息 ， 并 用 某 关 模型 表示 信息 的 一 门 学 问 。 我 们 使 用 模型 从 
那些 未 建 模 的 数据 中 推断 某 些 信息 ， 
神经 网 络 是 机 器 学 习 的 一 种 模型 ， 已 经 存在 至 少 50 年 了 。 神 经 网 络 的 基本 单元 是 节点 ， 基 
未 上 是 仿照 哺乳 动物 大 脑 的 神经 元 构建 的 。 神 经 元 之 间 的 连接 也 是 仿照 生物 的 大 脑 构建 的 ， 
也 会 随 着 时 间 (通过 “训练 ") 进化 。 接 下 来 的 两 章 会 深入 探讨 这 些 模型 是 如 何 工作 的 。 
在 20 世 纪 80 年 代 中 期 和 90 年 代 早期 ， 神 经 网 络 在 架构 上 取得 了 很 多 重要 进展 。 但 神经 
网 络 需要 大 量 时 间 和 数据 才能 取得 好 的 结果 ， 这 限制 了 它 的 应 用 场景 ， 磨 灭 了 人 们 的 兴 
趣 。21 世纪 初 ， 计 算 机 的 计算 能 力 旦 指数 级 增长 ， 这 个 行业 经 历 了 之 前 从 未 发 生 过 的 计算 
技术 的 “ 寒 武 纪 天 爆发 *， 深 度 学 习作 为 这 个 领域 中 一 个 强 有 力 的 竞争 者 ， 在 计算 能 力 呈 
爆炸 性 增长 的 十 年 中 脱颖而出 ， 赢 得 了 许多 重要 的 机 器 学 习 竞 赛 。 这 股 热度 在 2017 年 依 
然 没 有 消退 ， 如 今 在 机 器 学 习 的 每 个 角落 都 能 看 到 深度 学 习 的 身影 。 
本 章 将 深入 探讨 深度 学 习 的 定义 。 本 书 结构 精心 编排 ， 实 践 者 可 以 利用 本 书 做 以 下 事 | 
。 复习 线性 代数 和 机 器 学 习 相 关 的 基础 知识 ; 
































EE 
月 : 


复习 神经 网 络 的 基础 知识 ; 

学 习 四 大 主流 深度 网 络 架构 ， 

使 用 书 中 的 示例 来 尝试 实现 实用 的 深度 网 络 变 体 。 
希望 你 觉得 这 些 内 容 实用 且 易 于 理解 。 我 们 先 快速 概览 机 器 学 习 的 基础 知识 ， 之 后 的 章节 
还 会 介绍 一 些 核心 概念 ， 以 便 你 更 好 地 理解 本 书 的 剩余 内 容 。 


1.1.1 机 器 如 何 学 习 
在 定义 机 器 如 何 学 习 之 前 ， 首 先 需要 定义 “学 习 "。 日 常生 活 中 ， 当 说 到 “学 习 ” 时 ， 指 
的 是 “通过 学 习 、 经 验 或 者 接受 教育 来 获得 知识 ”。 结 合 我 们 的 主题 ， 可 以 把 机 器 学 习 看 
作 使 用 算法 从 数据 样本 中 获取 其 结构 描述 的 做 法 。 计 算 机 学 到 一 些 关 于 结构 的 信息 ， 这 代 
表 原 始 数据 中 的 信息 。 结 构 描 述 是 所 构建 模型 的 另 一 种 说 法 ， 包 含 着 从 原始 数据 中 提取 的 
信息 。 我 们 可 以 使 用 这 些 结构 或 模型 来 预测 未 知 数据 。 结 构 描 述 〈 或 模型 ) 可 以 呈现 为 多 
种 形式 ， 其 中 包括 : 
决策 树 
线性 回归 
神经 网 络 的 权重 


每 种 类 型 的 模型 使 用 不 同 的 方式 将 规则 应 用 于 已 知 数据 ， 从 而 预测 未 知 数据 。 决 策 树 以 树 
结构 的 形式 创建 一 组 规则 ， 而 线性 模型 创建 一 组 表示 输入 数据 的 参数 。 

神经 网 络 有 一 个 所 谓 的 参数 向 量 ， 用 于 表示 网 络 中 节点 之 间 连 接 的 权重 。 本 章 稍 后 会 介绍 
这 类 模型 的 细 市 。 







































































机 器 学 习 与 数据 挖掘 
数据 挖掘 已 经 出 现 几 十 年 了 ， 它 像 机 器 学 习 的 许多 术语 一 样 ， 常 被 曲解 或 错 用 。 基 于 
本 书 内 容 ,“ 数 据 挖 据 ” 的 实践 被 定义 为 “从 数据 中 提取 信息 *。 机 器 学 习 的 不 同 之 处 
在 于 ， 它 指 的 是 数据 挖掘 中 用 于 从 原始 数据 获取 结构 描述 的 算法 。 下 面 是 对 数据 挖 所 
做 法 的 简要 概括 。 


一 需要 原始 数据 的 样本 。 
从 数据 选取 行 或 实例 的 样本 : 
一 这 些 样本 代表 数据 中 特定 的 模式 。 
机 器 从 这 些 数据 模式 中 学 习 概 念 : 
一 机 器 通过 算法 进行 学 习 。 
总 的 来 说 ， 上 述 过 程 被 视 为 “数据 挖 气 ”。 














在 IBM 和 斯 坦 福 大 学 工作 的 人 工 智能 领域 的 先驱 Arthur Samuel 将 机 器 学 习 定义 为 : 
在 不 直接 针对 问题 编程 的 情况 下 ， 赋 子 计 算 机 学 习 能 力 的 一 个 研究 领域 。 

















Samuel 开发 了 一 款 可 以 玩 西 详 跳棋 的 软件 ， 它 能 调整 策略 ， 因 为 它 能 学 到 输赢 的 概率 与 棋 
盘 上 某 种 棋 面 之 间 的 关系 。 这 种 寻找 通 往 胜利 或 失败 的 模式 ， 然 后 识别 并 强化 成 功 模式 的 
基本 做 法 ， 支 撑 着 机 器 学 习 和 人 工 智能 走 到 今天 。 
机 器 能 够 通过 学 习 达 成 其 自身 目标 ， 对 此 我 们 已 经 慷 慢 了 几 十 年 。 这 也 许 主要 是 受到 现代 
人 工 智 能 教父 Stuart Russell 和 Peter Norvig 的 著作 《人 工 智 能 : 一 种 现代 的 方法 》 的 影响 ， 
书 中 写 道 : 

一 个 缓慢 、 微 小 的 大 脑 ， 无 论 是 生物 学 上 的 还 是 电子 学 上 的 ， 是 如 何 感知 、 理 

解 、 预 测 和 操纵 比 自己 更 大 、 更 复杂 的 世界 的 ? 


这 句 话 暗示 了 学 习 的 概念 受到 了 自然 界 的 过 程 和 算法 的 启发 。 图 1-1 以 图 形 化 的 方式 展示 
了 人 工 智 能 、 机 器 学 习 和 深度 学 习 之 间 的 关系 。 


























机 器 学 习 领 域 














图 1-1， 人 工 智 能 与 深度 学 习 之 间 的 关系 

人 工 智能 是 个 广阔 的 领域 ， 且 已 经 存在 了 很 长 时 间 。 深 度 学 习 是 机 器 学 习 领 域 的 一 个 子 
集 ， 是 人 工 智 能 的 子 领域 。 下 面 快速 了 解 一 下 深度 学 习 的 另 一 个 根源 : 神经 网 络 是 如 何 受 
到 生物 学 启发 的 。 
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1.1.2 ”生物 学 的 启发 
生物 学 上 的 神经 网 络 (大 脑 ) 大 约 由 860 亿 个 神经 元 组 成 ， 每 个 神经 元 与 许多 其 他 神经 元 
相连 。 
人 脑 中 全 部 的 连接 数 
据 研 究 人 员 保守 估计 ， 人 脑 中 神经 元 之 间 有 超过 500 万 亿 个 连接 。 即 使 今天 
最 大 的 人 工 神经 网 络 离 这 个 数字 也 相去 其 远 。 





从 信息 处 理 的 角度 看 ， 生 物 学 神经 元 是 一 个 可 兴奋 的 单元 ， 可 以 通过 电信 号 和 化 学 信号 处 
理 和 传输 信息 。 生 物 大 脑 中 的 神经 元 被 视 作 大 脑 、 中 枢 神 经 系统 的 浴 骸 和 外 周 神经 系统 的 
神经 节 的 主要 成 分 。 本 章 稍 后 会 介绍 ， 人 工 神经 网 络 的 结构 要 比 它 简单 得 多 。 











生物 神经 网 络 和 人 工 神经 网 络 的 比较 
生物 神经 网 络 要 比 它 的 人 工 神经 网 络 版 本 复杂 儿 个 数量 级 1 








人 工 神经 网 络 有 两 个 主要 特性 遵循 了 大 脑 工 作 的 一 般 原理 。 首 先 ， 神 经 网 络 最 基本 的 单元 
是 人 工 神 经 元 (或 简称 为 节点 )。 人 工 神经 元 模仿 大 脑 的 生物 神经 元 ， 就 像 生物 神经 元 一 
样 ， 它 们 受到 输入 的 刺激 。 这 些 人 工 神 经 元 传递 一 些 〈 但 不 是 所 有 ) 收 到 的 信息 给 其 他 
的 人 工 神经 元 ， 并 通常 伴 有 转换 。 随 着 本 章 内 容 的 推进 ， 将 会 详细 讨论 这 些 神经 网 络 中 
的 转换 。 
其 次 ， 通 过 训练 ， 大 脑 中 的 神经 元 可 以 只 传递 那些 有 助 于 大 脑 达成 更 大 目标 的 信号 。 同 
样 ， 我 们 可 以 训练 神经 网 络 的 神经 元 只 传递 有 用 的 信号 。 本 章 会 在 这 些 特性 的 基础 上 ， 介 
绍 人 工 神 经 网 络 如 何 通过 位 (bit) 和 函数 来 模拟 生物 神经 网 络 。 























生物 学 对 计算 机 科学 的 启发 
生物 学 对 计算 机 科学 的 启发 不 限于 人 工 神经 网 络 。 过 去 的 50 年 中 ， 学 术 研究 还 探索 了 
自然 界 中 带 给 计算 机 科学 灵感 的 其 他 主题 ， 例 如 : 


蚂蚁 
白蚁 
要 峰 
遗传 算法 


蚁 群 已 经 被 研究 者 看 作 一 个 强大 的 去 中 心 化 计算 机 ， 其 中 没有 一 只 蚂蚁 是 会 导致 整 
个 系统 失效 的 中 心 节 点 。 蚂 蚁 不 断 切 换 任务 ， 通 过 定量 共识 协调 等 元 启发 式 算 法 ， 
找到 接近 最 优 的 负载 均衡 解决 方案 。 蚁 群 能 够 执行 清洁 、 防 御 、 筑 业 和 砚 食 任务 ， 
同时 根据 相关 需求 ， 为 每 个 任务 分 配 接近 最 佳 数 量 的 工 蚁 ， 过 程 中 没有 个 体 蚂 蚁 直 
接 协调 工作 。 














1.1.3 ”什么 是 深度 学 习 
对 很 多 人 来 说 ,深度 学 习 很 难 定义 ， 因 为 它 在 过 去 十 年 中 慢 慢 地 改变 了 形式 。 一 个 有 用 的 
定义 是 ,深度 学 习 是 处 理 “ 两 层 以 上 的 神经 网 络 ” 的 技术 。 这 个 定义 的 存疑 之 处 是 它 使 深 
度 学 习 听 起 来 像 是 自 20 世纪 80 年 代 以 来 一 直 存 在 一 样 。 我 们 认为 神经 网 络 在 最 近 几 年 展 
现 出 其 辉煌 成 果 之 前 ， 就 已 在 架构 上 超越 了 早期 的 网 络 形式 〈 并 具有 更 强大 的 处 理 能 力 )。 
下 面 是 神经 网 络 发 展 的 一 些 方面 ， 


比 之 前 的 网 络 拥有 更 多 神经 元 ; 
。 神经 网 络 中 出 现 了 更 复杂 的 层 / 神经 元 之 间 的 连接 方式 ， 
。 用 于 进行 训练 的 计算 能 力 呈 现 爆炸 式 增 长 ; 

自动 特征 提取 。 


基于 本 书 的 主题 ， 深 度 学 习 被 定义 为 具有 大 量 参数 和 层 的 神经 网 络 ， 拥 有 以 下 四 种 基本 网 
络 架 构 之 一 : 


。 无 监督 预 训 练 网 络 (unsupervised pretrained network，UPN ) 
。 卷 积 神经 网 络 (convolutional neural network,，CNN) 

。 循环 神经 网 络 (recurrent neural network，RNN ) 

。 递归 神经 网 络 


上 述 架 构 还 存在 一 些 变 体 ， 比 如 混合 了 卷 积 和 循环 的 神经 网 络 。 本 书 会 聚焦 于 上 面 列 出 的 
四 种 架构 的 网 络 。 


自动 特征 提取 是 这 度 学 习 相 较 于 传统 机 器 学 习 算法 的 另 一 大 优点 。 特 征 提取 指 由 网 络 决定 
数据 集 的 哪些 特征 可 以 可 靠 地 用 于 标记 数据 的 过 程 。 历 史上 ， 机 器 学 习 的 实践 者 花费 了 他 
们 生命 中 的 数 月 、 数 年 其 至 数 十 年 来 人 工 创建 用 于 数据 分 类 的 穷 举 特征 集 。 在 2006 年 深 
度 学 习 大 爆发 开始 时 ， 最 先进 的 机 器 学 习 算 法 融 汇 了 人 类 数 十 年 努力 积累 的 用 于 对 输入 分 
类 的 相关 特征 。 对 于 几乎 所 有 需要 人 工 微 调 的 数据 类 型 ,深度 学 习 在 精度 上 都 超过 传统 算 
法 。 这 些 深度 网 络 有 助 于 数据 科学 团队 将 他 们 的 时 间 、 汗 水 和 泪水 市 省 下 来 ， 去 完成 更 有 
意义 的 任务 。 


1.1.4 ” 钻 进 奇幻 的 兔子 洞 


识 度 学 习 对 计算 机 科学 观念 的 徐 透 ， 超 过 了 近代 历史 上 的 大 多 数 技术 。 部 分 原因 是 这 一 技 
术 不 仅 拥 有 机 器 学 习 模 型 中 顶级 的 精度 ， 而 且 它 的 创造 能 力 甚至 让 非 计算 机 科学 家 着 迷 。 
一 个 例子 是 艺术 生成 演示 ， 即 一 个 深层 网 络 基于 某 位 著名 画家 的 作品 进行 训练 ， 然 后 能 够 
以 这 位 画家 的 独特 风格 谊 染 其 他 照片 ， 如 图 1-2 所 示 。 
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1-2: Gatys 等 人 2015 年 的 艺术 风格 图 片 


这 引发 了 对 许多 哲学 问题 的 讨论 ， 比 如 “机 器 有 创造 力 吗 ”， 以 及 进一步 的 “什么 是 创造 
力 ” 之 类 的 问题 ， 我 们 把 这 些 问题 留 给 你 后 续 思 芳 。 机 器 学 习 已 经 发 展 了 很 多 年 ， 它 就 像 
季 市 变化 ， 微 妙 但 稳定 ， 直 到 有 一 天 你 醒 来 时 发 现 机 器 已 经 成 为 Jeopardy 市 目 (美国 著名 
知识 况 答 市 目 ) 的 冠军 ， 或 者 击败 了 一 位 围棋 大 师 。 


机 器 能 变 得 有 智慧 ， 并 具有 和 人 类 同等 的 智能 吗 ? 人 工 智 能 是 什么 ， 它 能 变 得 多 么 强大 ? 
这 些 问题 尚未 得 到 解答 ， 本 书 也 没有 所 有 的 答案 。 我 们 只 是 试图 展示 机 器 智能 的 一 些 侧 
面 。 今天 可 以 通过 深度 学 习 的 实践 来 充实 我 们 的 生活 环境 。 














关于 人 工 智能 的 进一步 讨论 
如 果 想 了 解 更 多 关于 人 工 智能 的 信息 ， 请 阅读 附录 A。 


日 二 | 日 
1.2 提出 问题 
要 想 理解 有 关机 器 学 习 应 用 的 基础 知识 ， 最 佳 方式 是 从 提出 正确 的 问题 开始 。 以 下 是 需要 
定义 的 事项 
。 我 们 想 要 从 中 提取 信息 (模型 ) 的 输入 数据 是 什么 ? 


。 哪 种 模型 最 适合 这 个 数据 ? 
。 基于 这 个 模型 ， 我 们 希望 从 新 的 数据 中 探索 出 什么 样 的 答案 ? 








如 果 能 回答 这 三 个 问题 ， 我 们 就 可 以 建立 一 个 机 器 学 习 工作 流 ， 它 将 建立 模型 并 产生 我 们 
想 要 的 答案 。 为 了 更 好 地 完成 这 个 工作 流 ， 首 先 回顾 一 下 为 了 实践 机 器 学 习 所 需 了 解 的 一 
些 核心 概念 。 稍 后 再 看 看 在 机 器 学 习 中 如 何 将 它们 结合 起 来 ， 然 后 利用 这 些 信息 加 深 我 们 
对 神经 网 络 和 深度 学 习 的 理解 。 


1.3 ”机 器 学 习 背 后 的 数学 : 线性 代数 


线性 代数 是 机 器 学 习 和 深度 学 习 的 基石 ， 为 求解 用 来 建立 模型 的 方程 提供 了 数学 基础 。 























线性 代数 的 一 本 非常 好 的 入 门 书 是 James E. Gentle 的 Matrix Algebra: Theory, 


Computations and Applications in Statistics。 





我 们 从 被 称 为 标量 的 基本 概念 开始 ， 来 了 解 这 个 领域 的 一 些 核心 概念 。 


1.3.1 标量 
在 数学 中 ,，“ 标 量 ” 一 词 指 的 是 向 量 中 的 元 素 。 标 量 是 用 于 定义 向 量 空间 的 实数 和 字段 元 素 。 


在 计算 中 ,“ 标 量 ” 与 “变量 ”含义 相同 ， 是 与 符号 名 配对 的 存储 位 置 。 这 个 存储 位 置 保 
存 着 一 个 被 称 为 值 的 未 知 信息 量 。 


1.3.2 向量 
基于 使 用 场景 ， 向 量 的 定义 如 下 : 


对 于 正 整 数 n， 向 量 是 nn 元 组 、 有 序 ( 多 ) 集合 或 者 nn 个 数 的 数组 ， 其 中 的 数 被 
称 为 元 素 或 标量 。 
详细 说 来 ， 即 通过 一 个 名 为 向 量化 的 过 程 创建 一 个 被 称 为 “向 量 ” 的 数据 结构 。 向 量 中 元 
素 的 数量 被 称 为 向 量 的 “ 模 ”( 或 “长 度 ”)。 向 量 也 可 以 用 来 表示 维 空间 中 的 点 。 空 间 
意义 上 ， 从 原点 到 由 向 量 表 示 的 点 的 欧 儿 里 得 距离 就 是 向 量 的 “长 度 ”。 


在 数学 书 中 ， 向 量 经 常 写成 下 面 的 形式 : 


























A 
2 
X=| 加 
| X, | 
或 者 
x [X61, ,x | 
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处 理 向 量化 有 许多 不 同 的 方式 ， 可 以 利用 多 个 预 处 理 步 又， 得 到 具有 不 同 效果 的 输出 模 
型 。 本 章 稍 后 会 详细 介绍 如 何 将 原始 数据 转换 为 向 量 ， 然 后 第 5 章 将 更 全 面 地 讨论 。 


1.3.3 和 矩阵 

和 矩阵 可 以 看 作 一 组 向 量 ， 它 们 都 具有 相同 的 维度 ( 列 数 )。 这 样 矩 阵 就 是 一 个 二 维 数 组 ， 
拥有 行 和 列 。 

如 果 一 个 矩阵 被 称 为 n xm 和 矩阵 ， 那 说 明 它 有 n 行 和 mm 列 。 图 1-3 是 一 个 3 x3 矩阵， 用 来 
展示 和 矩阵 的 维度 。 和 珑 阵 是 线性 代数 和 机 器 学 习 的 核心 数据 结构 之 一 。 
































1.0 0.0 0.0 
0.0 1.0 0.0 
0.0 0.0 Wd 
































1-3: 一 个 3x3 和 矩阵 


1.3.4 张 量 
张 量 本 质 上 是 一 个 多 维 数组 。 向 量 可 以 看 作 张 量 的 子 集 。 


和 矩阵 沿 y 轴 的 行 和 沿 x 轴 的 列 延伸 ， 每 个 轴 是 一 个 维度 ， 而 张 量具 有 额外 的 维度 。 张 量 也 
有 秩 ， 相 比较 而 言 ， 标 量 的 秩 为 0， 向量 的 秩 为 1 。 我 们 也 可 以 看 出 矩阵 的 秩 为 2。 秩 为 3 
及 以 上 的 任何 实体 都 被 视 作 张 量 。 


1.3.5” 超 平面 


另 一 个 需要 了 解 的 线性 代数 对 象 是 超 平面 。 在 几何 中 ， 超 平面 是 比 其 环绕 空间 少 一 维 的 子 
空间 。 在 三 维 空间 中 ， 超 平面 有 两 个 维度 。 在 二 维 空间 中 ， 一 维 的 线 是 超 平面 。 


超 平面 是 将 一 个 维 空间 分 割 成 单独 “部 分 ”的 数学 构造 ， 因 此 在 分 类 等 应 用 中 会 有 用 。 
优化 超 平面 参数 是 线性 建 模 的 一 个 核心 概念 ， 在 本 章 稍 后 的 内 容 中 你 将 体会 到 这 一 点 。 


1.3.6 ”相关 数学 运算 
一 节 简 要 回顾 你 需要 知道 的 常见 线性 代数 运算 
1. 点 积 
机 器 学 习 中 一 个 常见 的 核心 线性 代数 运算 是 点 积 。 点 积 有 时 被 称 为 “标量 积 ” 或 “内 积 
点 积 计算 相同 长 度 的 两 个 向 量 ， 并 返回 一 个 数 。 这 是 通过 匹配 两 个 向 量 中 的 元 素 ， 将 它们 
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相 乘 ， 然 后 将 乘积 相 加 得 到 的 。 这 个 计算 没有 直接 涉及 复杂 的 数学 理论 ， 但 重要 的 是 这 个 
单一 的 数字 包含 了 大 量 信息 。 

首先 ， 点 积 是 对 每 个 向 量 中 每 个 元 素 大 小 的 度量 。 两 个 具有 较 大 值 的 向 量 可 以 给 出 较 大 的 
结果 ， 两 个 具有 较 小 值 的 向 量 可 以 给 出 较 小 的 值 。 当 使 用 规范 化 方法 从 数学 角度 评估 这 些 
向 量 的 相对 值 时 ， 点 积 就 是 这 些 向 量 的 相似 度 的 度量 。 数 学 上 把 两 个 规范 化 向 量 的 点 积 称 
为 余弦 相似 度 。 

2. 元 素 积 

实践 中 经 常见 到 的 另 一 个 线性 代数 运算 是 元 素 积 (或 哈达 马 积 )。 这 个 运算 适用 于 长 度 相同 的 
两 个 向 量 ， 它 会 产生 一 个 相同 长 度 的 向 量 ， 其 中 每 个 元 素 的 值 是 两 个 源 向 量 相应 元 素 的 乘积 。 
3. 外 积 
外 积 也 被 称 为 两 个 输入 向 量 的 “ 张 量 积 "。 取 列 向 量 的 每 个 元 素 ， 并 将 其 乘 以 行 向 量 中 的 
所 有 元 素 ， 从 而 在 结果 矩阵 中 创建 新 的 一 行 。 


1.3.7 “将 数据 转换 成 向 量 

在 机 器 学 习 和 数据 科学 的 工作 过 程 中 ， 需 要 分 析 所 有 类 型 的 数据 。 关 键 的 一 点 是 能 够 处 理 
各 种 数据 类 型 并 将 其 表示 为 向 量 。 在 机 器 学 习 中 ， 我 们 使 用 多 种 类 型 的 数据 ， 例 如 文本 、 
时 间 序 列 、 音 频 、 图 像 和 视频 。 


那么 为 什么 不 能 简单 地 把 原始 数据 输入 到 学 习 算 法 中 ， 让 它 处 理 一 切 呢 ? 原因 是 机 器 学 习 
基于 线性 代数 ， 需 要 求解 方程 组 。 这 些 方 程 需要 浮 点 数 作为 输入 ， 所 以 需要 一 种 将 原始 数 
据 转 换 成 浮 点 数据 集 的 方法 。 稍 后 介绍 方程 组 求解 时 会 将 这 些 概念 联系 起 来 。 原 始 数 据 的 
一 个 例子 是 经 典 的 萝 尾 花 数 据 集 : 












































5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
7.0,3.2,4.7,1.4,Iris-versicolor 
6.4,3.2,4.5,1.5,Iris-versicolor 
6.9,3.1,4.9,1.5,Iris-versicolor 
5.5,2.3,4.0,1.3,Iris-versicolor 
6.5,2.8,4.6,1.5,Iris-versicolor 
6.3,3.3,6.0,2.5,Iris-virginica 
5.8,2.7,5.1,1.9,Iris-virginica 
7.1,3.0,5.9,2.1,Iris-virginica 
另 一 个 例子 是 原始 文本 文档 : 
Go, Dogs. Go! 


Go on skates 
or go by bike. 


这 两 种 情况 都 涉及 不 同类 型 的 原始 数据 ， 但 都 需要 某 种 程度 的 向 量化 ， 将 数据 转换 为 机 器 
学 习 所 需 的 形式 。 在 某 些 时 候 ， 我 们 希望 输入 数据 是 矩阵 形式 ， 但 是 可 以 将 数据 转换 为 中 
间 形 式 (如 以 下 代码 片段 所 示 的 “svmlight” 文 件 格 式 )。 我 们 希望 机 器 学 习 算法 的 输入 数 
据 看 起 来 更 像 序列 化 的 稀 玻 向 量 格式 svmlight， 如 下 面 的 例子 所 示 。 
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1.0 1:0.7500000000000001 2:0.41666666666666663 3:0.702127659574468 4:0. 
5652173913043479 

2.0 1:0.6666666666666666 2:0.5 3:0.9148936170212765 4:0.6956521739130436 

2.0 1:0.45833333333333326 2:0.3333333333333336 3:0.8085106382978723 4:0 
.7391304347826088 


0.0 1:0.1666666666666665 2:1.0 3:0.021276595744680823 

2.0 1:1.0 2:0.5833333333333334 3:0.9787234042553192 4:0.8260869565217392 

1.0 1:0.3333333333333333 3:0.574468085106383 4:0.47826086956521746 

1.0 1:0.7083333333333336 2:0.7500000000000002 3:0.6808510638297872 4:0 
.5652173913043479 


.5652173913043479 


0.0 1:0.08333333333333343 2:0.5833333333333334 3:0.021276595744680823 
2.0 1:0.6666666666666666 2:0.8333333333333333 3:1.0 4:1.0 
1.0 1:0.9583333333333335 2:0.7500000000000002 3:0.723404255319149 4:0 


.5217391304347826 


3 
1 
1: 
1: 
1: 
6 
1.0 1:0.916666666666667 2:0.6666666666666667 3:0.7659574468085107 4:0 
6 
1: 
I 
二: 
2 
2:0.7500000000000002 


0.0 


这 种 格式 能 够 被 快速 地 读 入 矩阵 和 代表 标签 (前 例 中 每 行 的 第 一 个 数 ) 的 列 向 量 。 行 内 其 
余 被 索引 的 数字 也 在 运行 时 被 作为 “特征 ”插入 到 算 阵 中 的 适当 位 置 ， 以 便 为 机 器 学 习 处 
时 过 程 中 的 各 种 线性 代数 运算 做 好 准备 。 第 8 章 将 详细 讨论 向 量化 的 过 程 。 


这 里 有 一 个 常见 的 问题 : 为 什么 机 器 学 习 算 法 希望 数据 的 形式 (通常 ) 为 〈 稀 玻 ) 矩阵 ? 
为 了 理解 这 一 点 ， 先 快速 了 解 一 下 求解 方程 组 的 基础 知识 。 


1.3.8 方程 组 求解 
在 线性 代数 的 世界 中 ， 我 们 对 求解 如 下 形式 的 线性 方程 组 感 兴 
Ax=b 


其 中 4 是 由 一 组 输入 行 向 量 构 成 的 矩阵 ，b 是 矩阵 4 中 每 个 向 量 的 标签 的 列 向 量 。 拿 出 前 
一 个 例子 中 前 三 行 序列 化 的 稀 臣 输出 ， 并 将 它们 的 值 表示 为 如 下 线性 代数 形式 : 























站 












































列 1 列 2 列 3 列 4 
0.7500000000000001 0.41666666666666663 0.702127659574468 0.5652173913043479 
0.6666666666666666 人 0.9148936170212765 0.6956521739130436 


0.45833333333333326 0.3333333333333336 0.8085106382978723 0.7391304347826088 


这 个 数字 和 矩阵 是 方程 中 的 变量 4， 每 个 独立 的 值 或 每 行 中 的 值 被 看 作 输 入 数据 的 一 个 特征 。 








T 























什么 是 特征 
机 器 学 习 的 特征 是 输入 给 了 泗 4 中 任意 列 的 值 ， 它 被 用 作 一 个 独立 变量 。 特 征 可 以 直接 
从 源 数据 中 获取 ， 但 大 多 数 情况 下 ， 要 使 用 某 些 转换 来 将 原始 输入 数据 转换 为 更 适合 
建 模 的 形式 。 


一 个 例子 是 源 数据 中 有 四 个 不 同 的 文本 标签 的 输入 列 。 我 们 需要 扫描 所 有 的 输入 数据 
并 索引 所 使 用 的 标签 ， 然 后 根据 每 个 标签 的 索引 ， 在 0.0 和 1.0 之 间 规 范 化 每 行 中 各 列 
的 值 A 1, 2, 3) 。 这 些 类 型 的 转换 极 大 地 帮助 机 器 学 习 为 建 模 问题 找到 更 好 的 解决 方 
案 。 第 5 章 将 介绍 更 多 向 量 转换 技术 。 














我 们 希望 找到 给 定 行 中 每 列 的 系数 ， 用 于 给 出 输出 b 或 每 行 标签 的 预测 器 函数 。 之 前 用 到 
的 序列 化 稀 玻 向 量 的 标签 如 下 所 示 : 








前 面 提 到 的 系数 成 为 图 1-4 所 示 的 x 列 向 量 (也 称 参数 向 量 )。 











I 
| 

















训练 记录 (4) 参数 向 量 (x) ”输出 (b) 
输入 记录 1 6.7566 8.4166 8.7621 8.5652 ? 1.9 
输入 记录 2 8.6666 8.5 8.9148 8.6956 ? 2.6 
输入 记录 3 0.4583 0.3333 0.8085 0.7391 ? 2.9 











图 1-4: 方程 Ax = b 的 可 视 化 
如 果 存 在 一 个 参数 向 量 x， 使 得 该 方程 的 解 可 以 直接 写成 如 下 形式 ， 则 称 该 方程 组 “ 相 


容 ”: 

x=A'h 
从 实际 求解 的 方法 的 角度 来 解释 x = 4 'b 这 个 表达 式 很 重要 。 访 表达 式 仅 表示 解 本 身 。 变 
量 4 是 矩阵 4 的 逆 和 矩阵 ， 它 通过 被 称 为 矩阵 求 逆 的 过 程 来 计算 。 考 虑 到 不 是 所 有 和 矩阵 都 
可 赣 ， 需 要 一 种 不 涉及 和 矩阵 求 逆 的 方法 来 解 方程 。 其 中 一 种 方法 被 称 为 矩阵 分 解 。 一 个 通 
过 和 矩阵 分 解 求解 线性 方程 组 的 例子 是 利用 LU 分 解 来 求解 矩阵 4。 除 了 和 矩阵 分 解 ， 来 看 一 
下 求解 线性 方程 组 的 一 般 方法 。 
1. 线性 方程 组 的 求解 方法 
求解 线性 方程 组 有 两 种 通用 方法 。 第 一 种 被 称 为 “直接 法 ”， 它 在 算法 上 有 固定 的 计算 量 。 
另 一 种 称 为 迭代 法 ， 通 过 一 系列 近似 和 一 组 终止 条 件 ， 可 以 导出 参数 向 量 x。 当 所 有 训练 
数据 (4 和 4b) 能 够 在 一 台 计 算 机 的 内 存 中 存储 时 ， 直 接 类 的 方法 特别 有 效 。 使 用 直接 法 
求解 线性 方程 组 的 著名 例子 是 高 斯 消 元 法 和 正规 方程 法 。 
2. 迭代 法 
当 数 据 无 法 在 一 台 计 算 机 的 主 内 存 中 存储 时 ， 迭代 类 的 方法 尤其 有 效 ， 并 且 从 磁盘 中 遍历 
各 条 记录 使 我 们 能 够 对 更 大 的 数据 量 建 模 。 现 在 机 器 学 习 中 最 常见 的 迭代 法 的 典型 例子 是 
随机 梯度 下 降 (stochastic gradient descent，SDG) ， 本 章 稍 后 会 讨论 。 这 一 领域 的 其 他 技术 
还 有 共 力 梯度 和 交替 最 小 二 乘法 (第 3 章 将 详细 讨论 )。 迭 代 法 被 证 明 是 有 效 的 、 可 扩展 
的 方法 ， 不 仅 遍历 本 地 记录 ， 而 且 将 整个 数据 集 分 片 到 机 器 集群 中 ， 周 期 性 地 在 所 有 客户 
端 上 计算 参数 向 量 的 平均 值 ， 然 后 在 每 个 本 地 建 模 的 客户 端 上 更 新 参数 向 量 (第 9 章 将 详 
细 介 绍 )。 


3. 迭代 法 与 线性 代数 
在 数学 层面 ， 我 们 希望 使 用 这 些 算法 操作 输入 数据 集 。 这 个 限制 要 求 把 原始 输入 数据 转换 
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成 输入 矩阵 4。 这 里 对 线性 代数 的 快速 回顾 告诉 我 们 “为 什么 ”要 不 辞 辛苦 地 将 数据 向 量 
化 。 本 书 提供 了 将 原始 输入 数据 转换 为 输入 矩阵 4 的 代码 示例 ， 告 诉 你 “如 何 ” 去 做 。 将 
数据 向 量化 的 机 制 也 会 影响 学 习 的 结果 。 本 书 稍 后 会 介绍 ， 在 向 量化 之 前 ， 如 何在 预 处 理 
阶段 处 理 数 据 ， 以 创建 更 精确 的 模型 。 


1.4 机 器 学 习 表 后 的 数学 : 统计 学 


下 面 继续 本 章 内 容 ， 我 们 回顾 一 下 必要 的 统计 学 知识 。 我 们 需要 重点 掌握 统计 学 中 的 一 些 
基本 概念 ， 例 如 : 


: 概率 

分布 

。 似 然 

我 们 还 想 强调 描述 性 统计 和 推断 统计 中 一 些 其 他 的 基本 概念 。 描 述 性 统计 包括 以 下 内 容 : 
。 直方 
。 箱 形 
。 散 点 
。 平均 
。 标准 关 

。 相关 系数 

与 之 相反 ， 推 断 统计 关注 如 何 从 样本 泛 化 到 总 体 。 下 面 是 推断 统计 的 一 些 例子 : 


，p 值 

。 置信 区 间 

概率 与 推断 统计 之 间 的 关系 : 

。 概率 从 总 体 来 推断 样本 (演绎 推理 ) ; 

。 推断 统计 利用 样本 数据 来 推断 总 体 特征 。 

在 了 解 特定 样本 告诉 我 们 的 关于 总 体 的 信息 之 前 ， 我 们 需要 理解 与 从 给 定 的 总 体 中 抽取 样 
本 的 不 确定 性 。 

关于 一 般 统计 学 ， 本 书 不 会 涉及 其 他 图 书 已 深入 介绍 的 广泛 话题 。 本 节目 的 不 在 于 全 面 复 
习 统 计 学 知识 ， 而 旨 在 带领 你 进入 相关 主题 ， 你 可 以 通过 其 他 资源 进行 更 深入 的 研究 。 免 
责 声明 结束 ， 下 面 从 定义 统计 学 中 的 概率 开始 。 


1.4.1 概率 


我 们 将 事件 五 的 概率 定义 为 一 个 总 是 在 0 到 1 之 间 的 数值 。 在 这 个 背景 下 ， 值 为 0 意味 着 
事件 E 不 会 发 生 ， 而 值 为 1 意味 着 事件 已 肯定 会 发 生 。 很 多 时 候 ， 这 个 概率 表示 为 浮 点 
数 ， 但 也 可 以 表示 为 0% 到 100% 之 间 的 百分数 ， 不 会 有 低 于 0% 和 大 于 100% 的 有 效 概 
率 。 例 如 ， 概 率 0.35 也 可 以 表示 为 35% (0.35 x 100 == 35% ) 。 
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测量 概率 的 典型 例子 是 抛 一 枚 质量 均匀 的 硬币 ， 然 后 观察 会 出 现 多 少 次 正面 或 反面 朝 
上 【例如 ， 正 反面 各 0.5)。 样 本 空间 的 概率 总 为 1， 因 为 样本 空间 代表 给 定 试 验 的 所 有 可 
能 结果 。 正 如 我 们 可 以 看 到 抛 硬币 的 两 个 结果 (“正面 朝 上 ”和 它 的 补 集 “ 反 面 朝 上 ”)， 
0.5+0.5==1， 因 为 样本 空间 的 总 概率 必须 总 是 加 起 来 为 1。 


事件 的 概率 表示 如 下 : 











P(E)=0.5 
这 个 表达 式 读 作 : 


事件 互 的 概率 为 0.5。 





概率 〈probability) 与 几率 (odds) 辨析 

统计 学 或 机 器 学 习 的 初学 者 经 常 将 概率 和 几率 混淆 。 在 继续 学 习 之 前 ， 先 搞 清楚 它们 
的 区 别 。 
事件 巨 发 生 的 概率 定义 为 : 

P(E)=(E 发 生 的 情况 )/( 全 部 情况 ) 
例如 ， 从 一 副 扑 克 牌 (52 张 ) 中 抽出 A (4 张 ) 的 概率 为 : 

4/52 = 0.077 
相反 ， 几 率 被 定义 为 : 

(5 发 生 的 情况 ): (EB 未 发 生 的 情况 ) 
现在 扑克 牌 的 例子 变 成 了 “抽出 A 的 几率 ”: 

4: (52 一 4)= 1/12 = 0.0833333… 
这 里 ， 这 两 个 统计 学 概念 的 主要 区 别 是 分 母 不 同 〈 全 部 情况 与 未 发 生 的 情况 ) 。 











概率 是 神经 网 络 和 座 度 学 习 的 中 心 ， 这 归功 于 它 在 特征 提取 和 分 类 这 两 大 深度 神经 网 络 
功能 中 扮演 的 角色 。 如 果 你 需要 更 全 面 地 复习 统计 学 ， 请 参阅 Boslaugh 和 Watters 编写 的 
Statistics in a Nutshell: A Desktop Ouick Reference 一 书 。 











进一步 定义 概率 : 贝 叶 斯 方法 与 频率 方法 
统计 学 中 有 两 个 不 同 的 流派 ， 分 别称 为 贝 叶 斯 主义 和 频率 主义 。 这 两 大 流派 的 基本 区 
别 在 于 如 何 定义 概率 。 
在 频率 方法 看 来 ， 概 率 只 在 可 重复 测量 的 情况 下 有 意义 。 当 测量 某 物 时 ， 收 集 数 据 的 
设备 的 差异 会 导致 结果 有 微小 的 变化 。 重 复 测 量 多 次 后 ， 给 定 值 的 频率 就 表示 测量 该 
值 的 概率 。 
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而 使 用 贝 叶 斯 方法 时 ， 概 率 的 概念 扩展 到 涵盖 陈述 的 确定 性 方面 。 概 率 是 我 们 对 测量 
结果 的 认 知 的 陈述 。 对 于 贝 叶 斯 方法 来 说 ， 我 们 自己 对 事件 的 认 知 基本 上 与 概率 有 关 。 
对 变量 估计 值 进 行 陈 述 之 前 ， 频 率 方法 依赖 许 许多 多 的 盲 试 。 而 贝 叶 斯 方法 处 理 的 是 
对 变量 的 “信念 ”( 数 学 术语 为 “分 布 ") ， 并 在 新 信息 到 来 时 更 新 对 变量 的 信念 。 





1.4.2 条件 概率 


当 我 们 想 知道 一 个 给 定 事件 在 另 一 个 事件 发 生 的 前 提 下 发 生 的 概率 时 ， 将 它 表 示 为 条 件 概 
率 ， 表 达 形 式 如 下 : 








P(E 办 











其 中 三 是 我 们 对 其 概率 感 兴趣 的 事件 。 
是 已 发 生 的 事件 。 
下 面 是 表示 一 个 心率 正常 的 人 在 医院 就 诊 时 在 ICU 死亡 概率 较 低 的 例子 : 
PLCU 死 亡 | 非 正 常 心率 )>P(ICU 死 亡 | 正常 心率 ) 


有 时 第 二 个 事件 五 被 叫 作 “条 件 ”。 在 机 器 学 习 和 深度 学 习 中 ， 条 件 概率 很 有 用 ， 因 为 我 
们 和 经 常 对 何 时 发 生 多 个 事件 以 及 它们 如 何 相互 影响 感 兴趣 ， 使 用 机 器 学 习 构 建 分 类 器 时 ， 
就 会 用 到 条 件 概率 : 























P(E IF) 
其 中 是 标签 ,是 用 于 预测 的 事实 的 一 些 属性 。 比 如 根据 每 位 病人 在 ICU 的 测量 数据 
(这 里 的 天 来 预测 死亡 率 (这 里 的 本。 


























贝 叶 斯 定理 
条 件 概率 一 个 更 常见 的 应 用 是 贝 叶 斯 定理 (或 贝 叶 斯 公式 ) 。 在 医学 领域 ， 它 被 用 于 计 
算 在 一 个 特定 疾病 的 检查 中 结果 为 阳性 的 患者 实际 上 总 有 该 疾病 的 概率 。 
对 于 任意 两 个 事件 4 和， 贝 叶 斯 公式 定义 如 下 : 


P(B| 4)P(A) 


P(A4|1B)= PB) 











1.4.3 ”后 验 概率 


在 贝 叶 斯 统计 中 ， 考 虑 证 据 之 后 分 配给 随机 事件 的 条 件 概率 称 为 随机 事件 的 后 验 概率 。 我 
们 将 从 实验 中 收集 的 证 据 作 为 随机 变量 ， 将 后 验 概率 分 布 定 义 为 依赖 这 个 证 据 的 未 知 量 的 
概率 分 布 。 我 们 会 在 softmax 激活 函数 (本 章 稍 后 解释 ) 中 见 到 这 个 概念 的 作用 ， 其 中 原 
始 输入 值 被 转换 为 后 验 概率 。 


























1.4.4 ”分 布 

概率 分 布 是 随机 变量 的 随机 结构 的 一 个 规范 。 在 统计 学 中 ， 我 们 依赖 对 数据 的 分 布 情况 做 
出 假设 ， 来 对 数据 进行 推断 。 我 们 需要 一 个 公式 来 告诉 我 们 分 布 中 观测 值 出 现 的 频率 以 及 
分 布 中 的 点 如 何 取 值 。 一 个 广为人知 的 分 布 是 正 态 分 布 (也 被 称 为 高 斯 分 布 或 钟 形 曲线 ) 。 
我 们 喜欢 将 数据 集 与 一 个 分 布 适 配 ， 因 为 如 果 数 据 集合 理 接近 分 布 ， 就 可 以 基于 这 个 理论 
上 的 分 布 来 对 如 何 操 作 数 据 做 出 设想 。 

分 布 分 为 连续 型 和 离散 型 。 在 离散 分 布 中 ， 数 据 只 能 取 某 些 值 。 在 连续 分 布 中 ， 数 据 可 以 
是 范围 内 的 任何 值 。 连 续 分 布 的 一 个 例子 是 正 态 分 布 ， 离 散 分 布 的 一 个 例子 是 二 项 分 布 。 
正 态 分 布 允 许 我 们 假设 统计 抽样 分 布 (例如 样本 平均 值 ) 在 指定 条 件 下 呈正 态 分 布 。 正 态 
分 布 (参见 图 1-5), 或 者 叫 高 斯 分 布 ， 是 以 18 世纪 数学 家 和 物理 学 家 卡尔 .高 斯 的 名 字 命 
名 的 。 正 态 分 布 由 其 平均 值 和 标准 差 来 定义 ， 在 所 有 变化 中 通常 具有 相同 的 形状 。 















































正 态 分 布 
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图 1-5: 正 态 分 布 的 例子 
机 器 学 习 中 其 他 的 相关 分 布 包 括 : 


。 二 项 分 布 

。 逆 高 斯 分 布 

。 对 数 正 态 分 布 

器 学 习 中 训练 数据 的 分 布 对 于 理解 如 何 向 量化 建 模 数据 很 重要 。 


车 





中 心 极限 定理 
如 果 样 本 足够 大 ， 样 本 平均 值 的 抽样 分 布 近似 正 态 分 布 。 不 管 样本 所 属 总 体 怎样 分 布 ， 
这 一 点 都 成 立 。 
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基于 这 一 事实 ， 可 以 使 用 基于 平均 值 的 近似 正 态 性 的 检验 进行 统计 推断 。 即 使 样本 是 
从 非 正 态 分 布 的 总 体 中 抽取 的 ， 这 一 点 依然 成 立 。 

在 计算 机 科学 中 ， 这 个 特性 被 应 用 于 使 用 算法 从 非 正 态 分 布 的 总 体 中 重复 抽取 指定 大 
小 样本 的 场景 。 当 绘制 从 正 态 分 布 的 总 体 中 抽取 的 样本 的 直方 图 时 ， 可 以 看 到 这 种 特 
性 的 作用 。 











长 尾 分 布 (如 Zipf 分 布 、 寡 律 分 布 以 及 帕 累 托 分 布 ) 表示 一 种 高 频 总 体 后 面 跟着 低频 总 体 ， 
且 整 体 呈 逐渐 减少 趋势 的 场景 。 这 些 分 布 由 Benoit Mandelbrot 在 20 世纪 50 年 代 发 现 ， 后 来 因 
作家 克 里 斯 . 安德森 的 著作 《长 尾 理论 : 为 什么 未 来 的 商业 销售 更 多 小 众 商品 》 而 广为人知 。 
例如 ， 对 零售 商 销售 的 商品 进行 排名 ， 其 中 一 些 商 品 非常 受 欢迎 ， 但 大 量 商 品 的 销量 相对 
较 少 。 这 种 排序 频 度 分 布 (主要 是 受 欢迎 程度 或 “销量 ”) 经 常 形成 寡 律 。 从 这 个 角度 来 
看 ， 可 以 认为 它们 是 长 尾 分 布 。 
我 们 看 看 以 下 场景 中 的 长 尾 分 布 。 
。 地 震 损失 
随 着 地 震 规模 的 增 大 ， 损 失 也 越 来 越 严 重 ， 所 以 损失 程度 不 同 。 
。 粮食 产量 
有 时 会 出 现 超出 历史 记录 的 产量 ， 而 模型 倾向 于 围绕 平均 值 调整 。 
。 预测 从 ICU 病房 出 来 之 后 死亡 的 概率 
会 有 很 多 远 远 超出 ICU 病房 中 发 生 范 围 的 、 影 响 死 亡 率 的 事件 。 
这 些 例子 在 本 书 的 分 类 问题 背景 下 是 相关 的 ， 因 为 大 多 数 统计 模型 依赖 于 从 大 量 数据 中 进 
行 推断 。 如 果 更 有 趣 的 事件 发 生 在 分 布 的 尾部 ， 并 且 训 练 样本 数据 中 没有 包含 这 种 情况 ， 
那么 模型 的 表现 也 许 不 可 预测 。 这 种 效应 会 在 神经 网 络 这 样 的 非 线 性 模型 中 增强 。 这 种 情 
况 是 “样本 内 /样本 外 ”问题 的 特殊 情况 。 即 使 经 验 丰 富 的 机 器 学 习 实践 者 也 会 惊讶 于 模型 
在 不 全 面 的 训练 数据 样本 上 表现 得 非常 好 ， 却 不 能 泛 化 到 更 大 的 数据 总 体 上 。 
遵循 长 尾 分 布 的 事件 ， 其 实际 发 生 的 可 能 性 是 标准 偏差 的 五 倍 。 必 须 注意 在 训练 数据 中 适 
当选 取 事 件 ， 防 止 过 拟 合 训练 数据 。 稍 后 谈 到 过 拟 合 以 及 第 4 章 介绍 调 优 时 ， 将 给 出 这 种 
做 法 的 更 多 细节 。 


1.4.5 ”样本 与 总 体 


数据 总 体 被 定义 为 希望 在 实验 中 研究 或 建 模 的 所 有 单元 。 比 如 将 研究 的 总 体 定义 为 “ 田 纳 
西 州 所 有 的 Java 程序 员 ”。 


数据 样本 是 数据 总 体 的 子 集 ， 我 们 希望 它 能 代表 数据 的 精确 分 布 ， 而 不 会 引入 抽样 偏差 
(例如 对 总 体 抽样 的 具体 做 法 导致 样本 分 布 偏离 )。 

1.4.6 ” 重 采 样 方法 

Bootstrapping 和 交 义 验证 是 统计 学 中 两 种 常用 的 重 采 样 方法 ， 对 机 器 学 习 实 践 者 很 有 用 。 
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机 器 学 习 中 的 Bootstrapping 是 指 从 另 一 个 样本 中 抽取 随机 样本 来 生成 一 个 新 样本 ， 该 样本 
在 每 个 类 别 的 样本 数 之 间 保持 平衡 。 在 对 类 别 高 度 不 平衡 的 数据 集 建 模 时 ， 这 很 有 用 。 
交叉 验证 (也 被 称 为 轮换 估计 ) 是 评估 模型 对 训练 数据 集 泛 化 效果 的 一 种 方法 。 在 交叉 验 
证 中 ,我 们 将 训练 数据 集 分 成 a 个 分 片 ， 然 后 将 这 些 分 片 划 分 为 训练 组 和 测试 组 。 使 用 训 
练 组 分 片 进行 训练 ， 然 后 用 测试 组 分 片 进行 测试 。 多 次 轮换 两 组 之 间 的 分 片 ， 直 到 用 完 所 
有 组 合 。 对 要 用 到 的 分 片 数 量 没有 强制 规定 ， 但 研究 人 员 在 实践 中 发 现 10 个 分 片 的 效果 
很 好 。 经 常 也 会 单独 留存 一 部 分 数据 ， 用 作 训 练 时 的 验证 数据 集 。 


1.4.7 ”选择 性 偏差 

选择 性 偏差 指 处 理 的 采样 方法 没有 适当 的 随机 化 ， 导 致 样本 偏 斜 ， 不 能 代表 想 要 建 模 的 总 
体 。 在 对 数据 集 重 采样 时 ， 需 要 意识 到 选择 性 偏差 的 存在 ， 这 样 就 不 会 在 模型 中 引入 偏 
差 ， 否 则 将 降低 模型 在 更 大 的 总 体 上 的 准确 度 。 


1.4.8 似 然 

当 讨 论 事 件 发 生 的 可 能 性 ， 但 没有 具体 提 到 其 概率 数值 时 ， 使 用 非 正 式 术 语 似 然 。 一 般 来 说 ， 
使 用 这 个 术语 时 ,谈论 的 是 一 个 事件 ， 它 有 一 个 合理 的 发 生 概率 ， 但 也 可 能 没有 。 也 许 有 
一 些 尚 未 被 观察 到 的 因素 也 会 影响 事件 。 在 非 正 式 场合 ， 似 然 也 被 用 作 “ 概 率 ” 的 同义词 。 


1.5 机 器 学 习 如 何 工 作 


关于 求解 线性 方程 组 的 前 一 节 介 绍 了 求解 4x=b 的 基础 知识 。 本 质 上 ， 机 器 学 习 基 于 算法 
技术 ， 通 过 优化 来 最 小 化 这 个 方程 的 误差 。 

优化 专注 于 改变 x 列 向 量 (参数 向 量 ) 中 的 数字 ， 直 到 找到 一 组 好 的 值 ， 来 得 到 与 实际 值 
最 接近 的 结果 。 权 重 矩 阵 中 的 每 个 权重 都 会 在 损失 函数 计算 了 由 网 络 产生 的 误差 (基于 实 
际 结果 ， 如 先前 所 示 的 5 列 向 量 ) 之 后 被 调整 。 将 损失 的 某 一 部 分 归 因 于 每 个 权重 的 误差 
和 矩阵 将 被 乘 以 权重 本 身 。 

本 章 稍 后 将 讨论 SDG， 它 是 实现 机 器 学 习 优化 的 主要 方法 之 一 。 随 着 本 书 内 容 的 推进 ， 这 些 
概念 会 与 其 他 优化 算法 联结 起 来 。 也 会 介绍 诸如 正则 化 和 学 习 率 等 关于 超 参数 的 基础 知识 。 


1.5.1 回归 

回归 指 的 是 试图 预测 实际 输出 值 的 函数 ， 它 根据 自 变 量 来 估计 因 变 量 。 最 常见 的 回归 类 型 
是 线性 回归 ， 它 基于 先前 在 线性 方程 组 建 模 中 所 描述 的 概念 。 线 性 回归 试图 给 出 描述 x 和 
yy 之 间 关 系 的 函数 ， 然 后 对 于 已 知 的 x 值 ， 准 确 预 测 y 值 。 
1. 建立 模型 

线性 回归 模型 的 预测 是 系数 (来自 参数 向 量 x) 和 输入 变量 (来 自 输入 向 量 的 特征 ) 的 线 
性 组 合 。 可 以 用 下 面 的 方程 来 模拟 这 个 问题 : 


y=a+Bx 
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其 中 a 是 y 轴 截 距 ，B 是 输入 特征 ,x 是 参数 向 量 。 
这 个 方程 可 以 扩展 为 以 下 形式 : 

p=atboxot bx t+ hx, 
线性 回归 求解 问题 的 一 个 简单 例子 是 根据 通勤 距离 预测 每 月 的 汽油 消耗 量 。 在 这 个 场景 
中 ， 汽 油 成 本 是 通勤 距离 的 函数 。 汽 油 成 本 是 因 变 量 ， 而 通勤 距离 是 自 变 量 。 记 录 这 两 个 
量 的 关系 ， 然 后 定义 一 个 函数 ， 比 如 : 

成 本 = 不 距离 ) 

这 使 得 我 们 能 够 合理 地 基于 里 程 预测 汽油 消耗 量 。 在 这 个 例子 中 ， 将 距离 作为 自 变 量 ， 成 
本 是 模型 了/ 中 的 因 变 量 。 
以 下 是 线性 回归 模型 的 其 他 例子 : 
。 将 体重 作为 身高 的 函数 ， 以 此 来 预测 体重 ， 
。 根据 房屋 的 面积 预测 其 销售 价格 。 
2. 线性 回归 可 视 化 
可 以 将 线性 回归 表示 为 寻找 一 条 尽 可 能 接近 数据 散 点 




































































中 很 多 点 的 直线 ， 如 图 1-6 所 示 。 
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图 1-6: 线性 回归 示意 图 


拟 合 就 是 定义 函数 tx)， 它 产生 接近 测量 的 y 值 或 真实 世界 y 值 的 y 值 。 由 y=ftx) 产生 的 直 
线 接近 因 变 量 和 自 变 量 数值 对 的 分 散 坐标 。 

3. 与 线性 回归 模型 联系 起 来 

可 以 将 该 函数 与 之 前 的 方程 4x=6b 联系 起 来 ， 其 中 4 是 要 建 模 的 所 有 输入 示例 的 特征 〈 例 
如 ,“ 权 重 ” 或 “面积 ”)。 每 个 输入 记录 是 矩阵 4 中 的 一 行 。 列 向 量 5 是 矩阵 4 中 所 有 输 
入 记录 的 输出 。 使 用 误差 函数 和 优化 方法 (例如 SGD)， 可 以 找到 一 组 x 参数， 使 得 所 有 
预测 相对 于 真实 结果 的 误差 最 小 。 


如 同 前 面 所 讨论 的 ， 应 用 SGD 时 有 三 个 组 件 来 求 参 数 向 量 x。 
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。 关于 数据 的 假设 
参数 向 量 x 和 输入 特征 的 内 积 (如 上 文 所 示 )。 


。 成 本 函数 

预测 的 平方 误差 (预测 - 实际 )。 

更 新 函数 

平方 误差 损失 函数 的 导数 (成 本 函数 )。 
线性 回归 处 理 直 线 ， 非 线性 的 曲线 拟 合 处 理 所 有 其 他 的 曲线 ， 尤 其 是 那些 x 的 指数 大 于 1 
的 曲线 (这 就 是 为 什么 有 时 机 器 学 习 被 描述 为 “曲线 拟 合 ”)。 一 个 绝对 的 拟 合 将 穿 过 散 点 
图 上 的 每 个 点 。 不 过 讽刺 的 是 ， 绝 对 拟 合 通常 是 非常 差 的 结果 ， 因 为 这 意味 着 模型 在 训练 
集 上 训练 得 太 完美 了 ， 如 先前 讨论 过 的 ， 它 对 其 未 训练 过 的 数据 几乎 没有 预测 能 力 (比如 
不 能 很 好 地 泛 化 )。 


1.5.2 分 类 
分 类 模型 基于 某 个 输入 特征 集 为 输出 划分 类 别 。 如 果 说 回归 给 出 的 结果 是 “多 少 ”， 那 么 
分 类 给 出 的 结果 是 “ 哪 一 种 ”"。 因 变量 y 是 类 别 型 而 非 数 值 型 。 
最 基本 的 分 类 形式 是 二 元 分 类 ， 它 只 有 一 个 带 有 两 个 标签 的 输出 〈 两 个 类 别 ， 分 别 为 0 和 
1)。 输 出 也 可 以 是 0.0 到 1.0 之 间 的 泽 点 数 ， 以 便 处 理 没 有 绝对 确定 性 的 分 类 。 在 这 种 情 
况 下 ， 需 要 确定 一 个 划分 两 个 类 别 的 国 值 (通常 为 0.5)。 在 文献 中 这 些 分 类 通常 被 称 为 阳 
性 分 类 (如 1.0) 和 阴性 分 类 (如 0.0)，1.7 节 将 详细 讨论 。 
二 元 分 类 的 例子 包括 : 

区 分 基 人 是 否 患 有 某 种 疾病 ; 

区 分 电子 邮件 是 否 为 垃圾 邮件 ; 

区 分 交易 是 否 为 欺诈 或 虚假 交易 。 
除了 二 元 分 类 ， 还 有 具有 个 类 别 的 分 类 模型 ， 我 们 可 以 对 每 个 输出 类 别 评分 ， 得 分 最 高 
的 类 别 是 输出 类 别 。 当 探讨 具有 多 个 输出 的 神经 网 络 与 有 具有 单个 输出 (二 元 分 类 ) 的 神经 
网 络 时 将 进一步 讨论 这 一 点 。 本 章 稍 后 探讨 逻辑 回归 以 及 深入 探讨 神经 网 络 的 完整 架构 
时 ， 还 会 进一步 讨论 分 类 。 
推荐 
推荐 是 基于 与 用 户 相 似 的 其 他 用 户 或 用 户 以 前 浏览 过 的 其 他 物品 ， 向 系统 用 
户 推 荐 物品 的 过 程 。 因 Amazon.com 而 声名 大 噪 的 协同 过 滤 就 是 一 种 著名 的 
推荐 算法 。 































































































1.5.3 聚 类 


聚 类 是 一 种 无 监督 学 习 技 术 ， 它 通过 计算 距离 ， 迭 代 地 将 相似 的 项 更 紧密 地 归 类 到 一 起 。 
在 过 程 结 束 时 ， 最 紧密 地 聚集 在 个 中 心 点 附近 的 项 被 认为 分 类 到 该 组 。K-means 聚 类 是 
机 器 学 习 中 一 种 著名 的 聚 类 算法 。 
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1.5.4 欠 拟 合 与 过 拟 合 

如 同 前 面 所 提 到 的 ， 优 化 算法 首先 试图 解决 欠 拟 合 问 题 ， 即 选取 一 条 不 能 很 好 地 逼近 数据 
的 直线 ， 然 后 使 之 更 好 地 逼近 数据 。 栅 切 弧 形 散 点 图 的 直线 是 欠 拟 合 一 个 很 好 的 例子 ， 如 
图 1-7 所 示 。 
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图 1-7: 机 器 学 习 中 的 欠 拟 合 与 过 拟 合 


如 果 这 条 线 过 于 拟 合 数据 ， 就 会 带 来 相反 的 烦恼 ， 叫 作 “ 过 拟 合 ”"。 解 决 欠 拟 合 是 要 优先 
考虑 的 问题 但 是 在 机 器 学 习 中 却 要 花费 大 量 的 精力 来 避免 让 线 过 拟 合 数据 。 当 说 模型 过 
拟 合 数据 集 时 ， 指 的 是 它 在 训练 数据 上 的 误差 率 可 能 较 低 ， 但 并 不 能 很 好 地 泛 化 到 我 们 感 
兴趣 的 数据 总 体 。 

男 一 种 解释 过 拟 合 的 方法 是 考虑 数据 的 可 能 分 布 。 我 们 试图 在 其 中 画 线 的 训练 数据 集 只 是 
更 大 的 未 知 数据 集 的 一 个 样本 ， 如 果 需 要 所 画 的 线 具有 预测 能 力 ， 就 需要 它 同 样 能 较 好 地 
拟 合 更 大 的 数据 集 。 因 此 ， 必 须 假设 样本 松散 地 代表 更 大 的 集合 。 


1.5.5 ”优化 

上 述 调整 权重 以 对 数据 做 出 越 来 越 准 确 的 猜测 的 过 程 称 为 参数 优化 。 可 以 将 这 个 过 程 看 作 
一 种 科研 方法 。 先 提出 一 个 假设 ， 在 现实 中 检验 它 ， 然 后 不 断 改 进 或 替换 这 个 假设 ， 以 更 
好 地 描述 世界 上 的 事件 。 


每 一 组 权重 都 代表 一 个 关于 输入 意味 着 什么 的 假设 ， 即 它们 如 何 与 一 个 标签 的 含义 相关 。 
权重 代表 对 网 络 输入 和 想 要 猜测 的 目标 标签 之 间 相 关 性 的 猜想 。 所 有 可 能 的 权重 和 它们 的 
组 合 可 以 被 描述 为 这 个 问题 的 假设 空间 。 试 图 提出 最 好 的 假设 就 是 一 个 在 假设 空间 中 搜 
索 ， 而 我 们 使 用 误差 和 优化 算法 来 实现 。 输 入 参数 越 多 ， 问 题 的 搜索 空间 就 越 大 。 学 习 的 
大 量 时 间 要 花 在 决定 哪些 参数 要 忽略 ， 哪 些 要 保留 上 。 


























决策 边界 和 超 平面 
当 提 到 “决策 边界 ”时 ， 讨 论 的 是 由 线性 模型 的 参数 向 量 所 生成 的 维 超 
平面 。 








通过 测量 成 本 〈 即 与 真实 数据 点 的 距离 ) 来 用 线 拟 合 数据 是 机 器 学 习 的 中 心思 想 。 这 条 
线 应 该 大 体 上 拟 合 数据 ， 这 通过 最 小 化 线 与 所 有 点 的 距离 之 和 来 实现 。 将 线 上 的 点 x 与 其 
对 应 的 目标 点 y 之 间 的 距离 之 和 调整 到 最 小 。 在 三 维 空间 中 ， 你 可 以 想象 山坡 和 山谷 的 差 
距 ， 并 把 算法 想象 成 一 位 摸索 着 斜坡 行走 的 请 人 旅行 者 。 优 化 算法 ， 如 梯度 下 降 ， 会 告诉 
旅行 者 哪个 方向 是 下 坡 ， 这 样 他 就 知道 该 往 哪 里 走 。 

我 们 的 目标 是 找到 这 样 的 权重 ， 它 能 使 网 络 的 预测 值 (2 ， 或 者 4 和 x 的 点 积 ) 与 测试 集 
所 知 的 真实 值 (5b) 之 间 的 差异 最 小 ， 正 如 之 前 在 图 1-4 中 所 看 到 的 。 上 面 的 参数 向 量 (x) 
就 是 要 找 的 权重 。 网 络 的 准确 度 是 它 的 输入 和 参数 的 函数 ， 而 使 它 变 准确 的 速度 是 它 的 超 
参数 的 函数 。 











超 参 数 

在 机 器 学 习 中 ， 既 有 模型 参数 ， 又 有 能 够 使 网 络 更 好 、 更 快 地 训练 的 调 优 参 
数 。 这 些 调 优 参数 称 为 超 参 数 ， 在 使 用 学 习 算法 进行 训练 时 ， 它 们 负责 控制 
优化 函数 和 模型 的 选择 。 








收敛 

收敛 指 找到 参数 向 量 值 的 优化 算法 ， 它 给 出 优化 算法 在 所 有 训练 样本 中 可 能 
出 现 的 最 小 误差 。 在 优化 算法 尝试 儿 个 不 同 的 参数 之 后 ， 就 称 它 在 该 解 上 过 
代 “ 收 敛 ”。 








以 下 是 机 器 学 习 优 化 中 的 三 个 重要 概念 。 


。 参数 
转换 输入 以 帮助 确定 网 络 推断 的 分 类 。 


。 损失 函数 
在 每 次 迭代 过 程 中 ， 评 估 分 类 (最 小 化 误差 ) 的 效果 。 


。 优化 函数 
引导 它 走向 最 小 误差 点 。 


接 下 来 仔细 研究 一 个 优化 的 子 类 一 一 凸 优化 。 


1.5.6 吓 优 化 


在 是 优化 中 ， 学 习 算 法 处 理 凸 成 本 函数 。 如 有 果 x 轴 代 表 权 重 ,y 轴 表 示 成 本 ， 那 么 在 x 轴 
上 某 一 点 处 的 成 本 将 下 降 到 0， 而 当权 重 在 两 个 维度 上 偏离 其 理想 值 时 ， 两 侧 的 成 本 呈 指 
数 式 上 升 。 

图 1-8 显示 了 也 可 以 反 过 来 考虑 成 本 函数 。 
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图 1-8: 凸 函 数 的 可 视 化 


另 一 种 将 参数 与 数据 关联 的 方法 是 最 大 似 然 估计 (maximum likelihood estimation，MLE ) 。 
MLE 研究 一 条 抛物 线 ， 其 开口 向 下 ， 纵 轴 为 似 然 值 ， 横 轴 为 参数 。 抛 物 线 上 的 每 一 点 代表 
给 定 一 组 参数 时 数据 的 似 然 值 。MLE 的 目标 是 对 可 能 的 参数 进行 迭代 ， 直 到 找到 使 给 定数 
据 最 有 可 能 的 集合 。 

从 某 种 意义 上 说 ， 最 大 似 然 和 最 小 成 本 是 同一 枚 硬币 的 两 面 。 计 算 两 个 权重 相对 于 误差 的 
成 本 函数 〈 这 使 我 们 处 于 三 维 空间 ) ， 就 像 是 一 张 固定 了 每 个 角 的 床单 ， 中 间 下 垂 向 外 凸 
出 一 一 一 种 碗 形 的 函数。 这些 凸 曲线 的 斜率 提示 算法 下 一 步 该 朝 哪个 方向 走 ， 正 如 我 们 在 
接 下 来 探讨 的 梯度 下 降 优 化 算法 中 所 看 到 的 一 样 。 


1.5.7 ”梯度 下 降 


在 梯度 下 降 的 场景 中 ， 可 以 把 网 络 预测 的 质量 (权重 /参数 值 的 函数 ) 想象 为 一 幅 风景 画 。 
小 山 代 表 预 测 误差 很 大 的 位 置 (参数 值 或 权重 )， 山 谷 表示 误差 较 小 的 位 置 。 我 们 选择 风 
景 画 上 的 一 个 点 作为 初始 权重 。 可 以 基于 领域 知识 选择 初始 权重 (如果 正 在 训练 一 个 对 花 
弄 进 行 分 类 的 网 络 ， 那 么 花瓣 的 长 度 重要 ， 但 颜色 不 重要 )。 假 如 让 网 络 做 所 有 工作 ， 我 
们 就 可 以 随机 选择 初始 权重 。 

我 们 的 目的 是 尽 可 能 快 地 把 权重 降 到 误差 较 小 的 区 域 。 像 梯度 下 降 这 样 的 优化 算法 可 以 计 
算出 山坡 对 于 每 个 权重 的 实际 坡度 ， 即 它 知道 哪个 方向 向 下 。 梯 度 下 降 法 测量 坡度 (由 权 
重 变化 引起 的 误差 变化 )， 并 将 权重 朝山 谷底 部 移动 一 步 。 它 通过 求 损失 函数 的 导数 来 求 
梯度 。 在 优化 算法 中 ， 梯 度 给 出 算法 下 一 步 移动 的 方向 ， 如 图 1-9 所 示 。 







































































图 1-9: SGD 中 朝 全 局 最 小 值 移动 时 的 权重 变化 


导数 用 来 衡量 一 个 函数 的 “变化 率 "。 在 凸 优化 中 ， 寻 找 函 数 导 数 等 于 0 的 点 。 这 个 点 也 
被 称 为 函数 的 驻 点 或 最 小 点 。 在 优化 时 ， 考 虑 以 最 小 化 函数 ( 反 转 成 本 函数 的 外 部 ) 的 方 
式 优 化 函数 。 








什么 是 梯度 
梯度 被 定义 为 一 维 函 数 的 导数 在 多 维 函 数 让 上 的 泛 化 ， 表 示 为 函数 太 的 刀 个 偏 导数 的 向 
量 。 这 对 优化 很 有 用 ， 因 为 在 该 隙 数 最 大 增长 率 方向 上 的 梯度 值 相当 于 图 中 该 方向 上 
的 斜率 。 


梯度 下 降 使 用 导数 计算 损失 涵 数 的 人 儿 率 ， 读 者 应 该 很 熟 六 “导数 ”这 个 微 积分 概念 。 
在 二 维 损失 函数 上 上， 导数 是 抛物 线 上 任意 点 的 正切 ， 也 就 是 的 变化 除 以 x 的 变化 ， 
上 升 除 以 前 进 。 


正如 从 三 角 学 中 所 知 ， 正 切 是 一 个 比率 ， 它 等 于 直角 三 角形 的 对 边 〈 它 测量 重 直 变化 ) 
除 以 领 边 ( 它 测量 水 平 变化 )。 


曲线 的 一 个 定义 是 一 条 人 针 率 不 断 变 化 的 线 ， 线 上 每 个 点 的 针 率 等 于 紧 贴 该 点 的 正切 。 
由 于 人 儿 浴 是 由 两 个 点 求 出 的 ， 那 么 如 何 精 确 地 找到 曲线 上 一 个 点 的 针 率 呢 ? 通过 计算 
曲线 上 距离 很 小 的 两 点 之 间 连 线 的 儿 率 ， 然 后 慢 慢 缩小 距离 直到 接近 替 来 求 导数 。 在 
微 积分 运算 中 ， 这 叫 作 极限 。 














不 断 重复 计算 误差 并 在 低 误差 的 方向 修改 权重 的 过 程 ， 直 至 权重 到 达 误 差 最 低 的 点 ， 即 准 
确 度 最 高 的 点 。 使 用 凸 损失 函数 (通常 在 线性 建 模 ) 时 ， 损 失 函 数 只 有 一 个 全 局 最 小 值 。 
可 以 从 求 参数 向 量 x 的 三 个 组 件 的 角度 来 思考 线性 建 模 。 

一 个 关于 数据 的 假设 ,例如 “在 模型 中 用 于 预测 的 方程 ”。 

成 本 函数 ， 也 称 损失 函数 ， 例 如 “误差 平方 和 ”。 

更 新 函数 ， 我 们 取 损 失 函 数 的 导数 。 
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我 们 的 假设 是 学 习 参 数 x 和 输入 值 (特征 ) 的 组 合 会 给 出 一 个 分 类 或 实际 的 输出 值 〈 回 
归 )。 成 本 函数 告诉 我 们 离 损 失 函 数 的 全 局 最 小 值 有 多 远 ， 我 们 用 损失 函数 的 导数 作为 更 
新 函数 来 改变 参数 向 量 x。 

损失 函数 的 导数 给 出 x 中 的 每 个 参数 需要 调整 的 幅度 ， 以 便 更 接近 损失 曲线 上 的 0 点 。 本 
章 稍 后 将 更 详细 地 研究 这 些 方程 ， 展 示 它 们 如 何 用 于 线性 回归 和 逻辑 回归 (分 类 )。 
然而 在 其 他 非 线性 问题 中 ， 并 不 总 是 能 够 得 到 这 样 一 条 干净 的 损失 曲线 。 这 些 非 线性 的 、 
假想 的 风景 画 的 问题 是 : 可 能 有 多 个 山谷 ， 但 是 通过 梯度 下 降 来 求 更 低 权 重 的 机 制 却 无 法 
知道 它 是 否 已 经 到 达 最 低谷 ， 或 者 仅仅 是 在 一 个 较 高 的 山谷 的 最 低 点 。 最 低谷 的 最 低 点 被 
称 为 全 局 最 小 值 ， 而 其 他 所 有 山谷 的 最 低 点 称 为 局 部 最 小 值 。 梯 度 下 降 法 有 可 能 陷入 局 部 
最 小 值 ， 这 是 它 的 一 个 缺点 。 第 6 章 探讨 超 参 数 和 学 习 率 时 将 介绍 解决 这 一 问题 的 方法 。 
梯度 下 降 面 对 的 第 二 个 问题 是 非 规范 化 特征 。 本 书 中 的 “ 非 规范 特征 ” 指 需要 用 差别 很 大 
的 比例 尺 来 测量 的 特征 。 如 果 有 一 个 维度 是 百 万 级 的 ， 而 另 一 个 维度 是 小 数 级 的 ， 那 么 梯 
度 下 降 将 很 难 找到 最 陡峭 的 斜率 来 使 误差 最 小 化 。 


规范 化 处 理 


第 8 章 将 深入 研究 向 量化 语 境 下 的 规范 化 方法 ， 并 介绍 一 些 更 好 地 解决 这 一 
问题 的 方法 。 







































































1.5.8 SGD 


在 梯度 下 降 中 ， 在 计算 梯度 和 更 新 参数 向 量 之 前 ， 计 算 所 有 训练 样本 的 总 损失 。 而 在 SGD 
中 ， 在 每 次 训练 样本 之 后 计算 梯度 和 更 新 参数 向 量 。 这 已 被 证 明 可 以 加 快 学 习 速度 ， 同 时 
也 有 利于 并 行 ， 本 书后 面 详 细 讨论 。SGD 是 “全 批量 ”梯度 下 降 的 近似 值 。 

小 批量 训练 与 SGD 
SGD 的 另 一 个 变 体 是 使 用 多 个 训练 样本 计算 梯度 ， 但 不 会 使 用 整个 训练 数据 集 。 这 种 变 体 
被 称 为 小 批量 SGD 训练 ， 它 已 被 证 明 比 仅 使 用 单个 训练 实例 的 做 法 性 能 更 好 。 应 用 小 批 
量 SGD 也 会 使 收敛 更 平 请 ， 因 为 每 次 挝 代 都 会 使 用 更 多 的 训练 样本 来 计算 梯度 。 


随 着 小 批量 大 小 的 增加 ， 计 算出 的 梯度 会 更 接近 整个 训练 集 的 “真实 ”梯度 ， 这 也 带 来 了 
更 高 的 计算 效率 。 如 果 设 置 的 小 批量 过 小 (例如 ， 一 条 训练 记录 )， 就 无 法 有 效 地 使 用 硬 
件 ， 尤 其 是 在 像 GPU 可 用 这 样 的 情况 下 。 相 反 ， 如 果 小 批量 过 大 (超过 一 定 界限 ) 就 会 
导致 低 效 ， 因 为 可 以 用 普通 的 梯度 下 降 方 法 和 更 少 的 计算 量 (在 某 些 情况 下 ) 求 得 同样 的 
梯度 。 


1.5.9 拟 牛 顿 优 化 方法 


拟 牛顿 优化 方法 是 迭代 算法 ， 涉 及 一 系列 的 “线性 搜索 "。 它 与 其 他 优化 方法 的 区 别 在 于 
搜索 方向 的 选择 方式 。 本 书后 面 儿 章 将 进一步 探讨 这 些 方法 。 


















































雅 可 比 矩 阵 和 海 森 矩阵 
雅 可 比 徐 阵 是 一 个 包含 孙 数 对 各 向 量 的 一 阶 偏 导数 的 mxn 矩阵。 
海 森 和 矩 阵 是 一 个 吕 数 的 二 阶 偏 导数 的 方 了 泗 ， 描 述 拥有 许多 变量 的 函数 的 局 部 曲率 。 海 
森 给 阵 在 使 用 牛顿 型 方法 解决 大 规模 优化 问题 中 得 到 了 应 用 ， 因 为 它们 是 局 部 泰勒 展 
开 式 的 二 次 项 系数 。 在 实践 中 ， 海 森 答 阵 很 难 计算 ,我 们 往往 使 用 拟 牛 顿 算法 近似 地 
替代 海 林 矩阵。 这 类 拟 牛 顿 优化 算法 的 一 个 例子 是 L-BFGS， 第 2 章 将 详细 介绍 。 
本 书 不 会 过 多 提 及 雅 可 比 和 矩阵 和 海 森 和 矩阵 ， 但 是 希望 你 能 了 解 它 们 及 其 在 更 广阔 的 机 
器 学 习 领域 中 的 地 位 。 











1.5.10 生成 模型 与 判别 模型 

使 用 不 同类 型 的 模型 会 生成 不 同类 型 的 输出 。 两 个 主要 的 模型 类 型 是 生成 模型 和 判别 模 
型 。 生 成 模型 根据 数据 的 创建 方式 生成 相应 类 型 的 响应 或 输出 。 判 别 模 型 不 关心 数据 的 创 
建 方式 ， 只 是 简单 地 根据 给 定 的 输入 信号 给 出 分 类 或 类 别 。 判 别 模型 侧重 于 对 类 别 之 间 的 
边界 建 模 ， 与 生成 模型 相 比 ， 它 能 够 更 细微 地 描述 边界 。 判 别 模型 通常 用 于 机 器 学 习 中 的 
分 类 。 

生成 模型 学 习 联合 概率 分 布 p(x, y)， 而 判别 模型 学 习 条 件 概率 分 布 p(ylx)。 分 布 pCyx) 是 接 
收 输入 x 并 产生 输出 (或 分 类 ) y 的 自然 分 布 ， 因 此 得 名 “判别 模型 "*。 生 成 模型 学 习 分 布 
PC y)， 被 用 来 根据 给 定 的 输入 产生 可 能 的 输出 。 生 成 模型 通常 被 设置 为 捕捉 数据 中 微妙 
关系 的 概率 图 模型 。 


1.6 ”逻辑 回归 


逻辑 回归 是 线性 建 模 中 一 种 著名 的 分 类 方法 ,适用 于 二 元 分 类 以 及 多 项 式 逻 辑 回 归 形 式 
的 多 个 标签 分 类 。 逻 辑 回归 是 一 种 回归 模型 (技术 上 讲 )， 其 中 因 变 量 是 类 别 变量 (例如 
“分 类 ”)。 二 元 逻辑 回归 模型 用 于 基于 一 组 (一 个 或 多 个 ) 输入 变量 ( 自 变量 或 “特征 ”) 
估计 一 个 二 元 输出 的 概率 。 该 输出 是 一 个 类 别 的 统计 概率 ， 是 基于 给 定 的 输入 做 出 的 
预测 。 
与 线性 回归 相似 ， 可 以 用 4x=b 的 形式 表达 逻辑 回归 建 模 问 题 ， 其 中 4 是 要 建 模 的 所 有 输 
入 样本 的 特征 例如,“ 权重 ”或 “面积 ”)。 每 个 输入 记录 是 矩阵 4 中 的 一 行 ， 列 向 量 b 
是 矩阵 4 中 所 有 输入 记录 的 结果 。 使 用 成 本 函数 和 优化 方法 ， 可 以 找到 一 组 x 参数， 使 所 
有 预测 值 与 真实 结果 的 误差 最 小 化 。 


再 次 使 用 SGD 优化 这 个 问题 ， 我 们 有 三 个 组 件 来 解决 参数 向 量 x。 
。 关于 数据 的 假设 
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f(X) = 
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。 成 本 函数 

“最 大 似 然 估 计 ” 
。 更 新 函数 

成 本 函数 的 导数 
在 这 种 情况 下 ,输入 是 自 变量 (例如 ， 输 入 列 或 “特征 ”)， 而 输出 是 因 变 量 (例如 ,“ 标 
答 分 数 ”)。 可 以 简单 地 理解 为 ， 返 辑 回归 函数 根据 输入 值 与 权重 来 判断 一 个 结果 是 否 可 
能 。 接 下 来 仔细 研究 逻辑 函数 。 


1.6.1 逻辑 函数 


在 逻辑 回归 中 ,逻辑 函数 (“假设 ") 定义 如 下 : 
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这 个 国 数 在 逻辑 回归 中 很 有 用 ， 因 为 它 可 以 接纳 从 负 无 穷 到 正 无 穷 范围 内 的 任何 输入 ， 并 
且 将 输入 映射 到 0.0 到 1.0 范围 内 ， 这 使 输出 值 可 以 解释 为 概率 。 图 1-10 就 是 一 个 逻辑 函 
数 方程 的 图 像 。 
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1-10: 逻辑 函数 示意 图 























这 个 函数 是 连续 对 数 sigmoid 函数 ， 它 的 范围 是 0.0 到 1.0， 我 们 将 在 2.3 节 中 再 次 见 到 这 
个 国 数 。 


1.6.2 ”理解 逻辑 回归 的 输出 
逻辑 函数 通常 用 希腊 字母 或 oo 表示， 因为 x 和 y 的 关系 在 二 维 图 上 看 起 来 像 一 个 拉 长 
的 、 风 吹 过 的 字母 s， 它 的 最 大 值 和 最 小 值 分 别 逼 近 1 和 0。 


如 果 y 是 x 的 函数 ， 并 且 该 函数 是 sigmoid 国 数 或 逻辑 国 数 ， 那 么 x 越 大 ， 我 们 就 越 接近 





























1/1， 因 为 e 的 负 无 穷 次 需 趋 近 于 0， 相反 ,x 相 比 0 越 小 ， 表 达 式 (1+e ”) 的 值 越 大 ， 整 个 
商 就 越 小 。 因 为 (1+e ”) 是 分 母 ， 所 以 它 越 大 ， 商 本 身 就 越 接 近 零 。 


逻辑 回归 中 的 jtx) 表示 对 于 每 个 给 定 的 输入 x, y 等 于 1( 即 为 真 ) 的 概率 。 如 果 要 预 估 一 
封 电子 邮件 是 垃圾 邮件 的 概率 ， 而 fx) 恰好 等 于 0.6， 则 可 以 说 对 于 给 定 的 输入 ，y 有 60% 
的 概率 为 1， 或 者 说 电子 邮件 有 60% 的 可 能 性 是 垃圾 邮件 。 如 果 将 机 器 学 习 定义 为 从 已 知 
输入 推断 未 知 输出 的 一 种 方法 ， 那 么 逻辑 回归 模型 中 的 参数 向 量 x 决定 了 推断 的 确定 性 。 




















logit 变换 
logit 函数 是 逆 逻 辑 函 数 (“逻辑 变换 ”)。 








1.7 ”评估 模型 


评估 模型 是 了 解 模 型 在 特定 情况 下 给 出 正确 分 类 结果 的 准确 程度 ， 以 及 评估 预测 值 的 过 
程 。 有 了 时候 ， 我 们 只 关心 模型 做 出 正确 预测 的 频率 。 其 他 时 候 ， 模 型 能 比 其 他 模型 更 准确 
地 做 出 某 一 类 预测 很 重要 。 本 闻 将 讨论 不 良 阳性 、 无 害 阴 性 、 类 别 不 平衡 和 非 均等 代价 等 
话题 。 接 下 来 介绍 用 于 评估 模型 的 基本 工具 : 混淆 矩阵 。 


混 清 和 矩阵 
混 清 矩阵 (参见 图 1-11) 也 称 混淆 表 ， 是 表示 分 类 器 的 预测 值 和 实际 结果 (标签) 之 间 关 


系 的、 由 行 和 列 构 成 的 表 。 在 于 适当 的 时 候 给 出 正确 答案 的 基础 上 ， 我 们 使 用 这 个 表 来 更 
好 地 理解 模型 或 分 类 器 的 表现 。 





























Ps N’ 
(预测 值 ) (预测 值 ) 
P 让 | 
(实际 值 ) TP ( 真 阳性 ) FN ( 假 阴 性 ) 
N 站 | 
(实际 值 ) FP ( 假 阳 性 ) TN ( 真 阴 性 ) 
































1-11:， 混淆 矩阵 


根据 以 下 规则 判断 预测 属于 哪 种 类 型 。 
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。 真 阳性 
一 预测 为 阳性 
- 标签 为 阳性 
。 假 阳 性 
- 预测 为 阳性 
- 标签 为 阴性 
。 真 阴 性 
一 预测 为 阴性 
- 标签 为 阴性 
。 假 阴 性 
一 预测 为 阴性 
- 标签 为 阳性 
在 传统 统计 学 中 ， 假 阳性 也 称 “I 型 错误 “， 而 假 阴 性 也 称 “II 型 错误 ”。 通 过 跟踪 这 些 度 
量 值 ， 除 了 得 到 简单 的 正确 率 数 据 ， 还 可 以 对 模型 性 能 做 更 详细 的 分 析 。 根 据 前 面 混淆 矩 
阵 中 四 个 值 的 组 合 ， 我 们 能 够 对 模型 做 出 不 同 角度 的 评估 ， 如 下 所 示 ; 
Accuracy: 0.94 
Precision: 0.8662 


Recall: 0.8955 
F1 Score: 0.8806 


在 上 例 中 可 以 看 到 四 种 常见 的 评估 机 器 学 习 模 型 的 方法 。 之 后 会 简要 介绍 每 一 种 评估 方 
法 ， 但 现在 先 了 解 评估 模型 灵敏 度 与 特异 度 的 基础 知识 。 
1. 灵敏 度 与 特异 度 
灵敏 度 和 特异 度 是 对 二 元 分 类 模型 的 两 种 评估 方法 。 真 阳性 率 等 于 将 一 条 输入 记录 分 类 为 
正 向 类 并 且 它 是 正确 分 类 的 频率 。 这 也 被 称 为 灵敏 度 或 召回 率 。 一 个 例子 是 将 实际 上 确实 
患 病 的 病人 诊断 为 患 病 。 灵 敏 度量 化 了 模型 避免 假 阴 性 的 能 力 。 

灵敏 度 =TP/(TP+FN) 
如 果 模 型 将 前 面 例子 中 的 一 个 病人 分 类 为 没有 患 病 ， 而 她 实际 上 也 确实 没有 患 病 ， 那 么 这 
种 情况 被 称 为 真 阴性 (也 称 特异 度 )。 特 异 度 量化 了 模型 避免 假 阳 性 的 能 

特异 度 =TN / (TN + FP) 
很 多 时 候 需 要 在 灵敏 度 和 特异 度 之 间 进 行 权 衡 。 一 个 例子 是 建立 一 个 模型 来 更 频繁 地 检测 
病人 的 严重 疾病 ， 因 为 误诊 一 个 真正 患 病 的 病人 的 成 本 很 高 。 我 们 认为 这 种 模型 具有 低 特 
异 度 。 一 种 严重 的 疾病 可 能 危及 病人 和 他 周围 其 他 人 的 生命 ， 所 以 模型 应 对 这 种 疾病 及 其 
影响 有 高 灵敏 度 。 完 美的 模型 应 当 是 100% 灵敏 ( 即 所 有 疾病 都 被 检测 出 来 ) 和 100% 特 
异 的 ( 即 没 有 一 个 未 生病 的 人 被 分 类 为 患 病 )。 
2. 准确 度 
准确 度 是 一 个 量 的 测量 值 与 其 真实 值 的 接近 程度 。 

准确 度 =(TP+TN)/(TP+FP+EFN+TN) 

























































































当 类 别 非常 不 平衡 时 ， 准 确 度 可 能 会 误导 模型 的 质量 。 如 果 简 单 地 将 所 有 事物 分 类 为 较 大 
的 类 别 ， 模 型 将 自动 做 出 大 量 正 确 的 猜测 ， 并 具有 一 个 很 高 的 准确 度 分 数 ， 但 基于 模型 创 
建 的 实际 应 用 却 会 误导 判断 〈 例 如 ， 它 永远 不 会 预测 更 小 的 类 别 或 罕见 的 事件 ) 。 

3. 精度 

在 科学 和 统计 学 中 ， 在 相同 的 条 件 下 重复 测量 得 到 相同 结果 的 程度 称 为 精度 。 精 度 也 被 称 
为 阳性 预测 值 。 虽 然 有 时 在 口语 中 它 与 “准确 度 ” 互 换 使 用 ， 但 是 它们 在 科学 方法 框架 内 
的 定义 不 同 。 























精度 =TP/(TP+FP) 


测量 可 以 准确 但 不 精确 ， 不 准确 但 仍然 精确 ， 既 不 准确 也 不 精确 ， 或 既 准 确 又 精确 。 如 果 
一 个 测量 既 准 确 又 精确 ， 那 么 就 认为 它 是 有 效 的 。 








4. 召回 率 
这 是 与 “灵敏 度 ” 相 同 的 概念 ， 也 被 称 为 真 阳 性 率 或 命中 率 。 
5. F1 


在 二 元 分 类 中 ， 用 了 1 分 数 (或 下 分数 、 上 测度 ) 作为 模型 准确 度 的 度量 。F1 分 数 将 精度 
和 召回 率 (之 前 介绍 的 ) 合 二 为 一 ， 是 二 者 的 调和 平均 值 ， 其 定义 如 下 所 示 。 

Fl1 =2TP/ (2TP +FP+FN) 
Fl 的 分 数 在 0.0 到 1.0 之 间 ， 其 中 0.0 是 最 差 的 分 数 ，1.0 是 我 们 希望 看 到 的 最 好 分 数 。F1 
分 数 通 常用 在 信息 检索 中 ， 用 于 了 解 模型 检索 相关 结果 的 表现 如 何 。 在 机 器 学 习 中 ，F1 分 
数 被 用 作 模 型 表现 的 总 体 得 分 。 
6. 场景 与 分 数 的 解释 
如 本 节 前 面 所 介绍 的 ， 场 景 会 影响 模型 的 评估 方式 ， 也 会 决定 何 时 使 用 不 同类 型 的 分 数 。 
类 别 不 平衡 对 评估 分 数 的 选择 有 很 大 的 影响 ， 在 许多 数据 集中 ， 我 们 会 发 现 类 别 或 标签 的 
数量 不 均衡 。 以 下 是 一 些 典 型 的 领域 : 

网 页 点 击 预测 ， 

。 ICU 死亡 率 预测 ; 
。 其 诈 检 测 。 
在 这 些 场景 中 ， 完 全 追求 “百分比 至 上 ”的 得 分 可 能 会 损害 模型 的 实用 价值 。 这 种 问题 的 
一 个 例子 是 2012 年 PhysioNet 挑战 赛 的 数据 集 。 
这 个 挑战 的 目标 是 “使 用 二 元 分 类 器 以 最 大 准确 率 预测 院内 死亡 率 ”。 对 这 个 数据 集 建 模 
的 困难 和 挑战 在 于 预测 患者 存活 是 很 容易 的 ， 因 为 数据 集中 的 大 量 样 本 都 有 患者 存活 的 
结果 。 在 这 种 场景 下 ， 目 标 是 准确 预测 死亡 率 ， 这 是 在 现实 世界 的 临床 相关 场景 中 模型 最 
有 价值 的 地 方 。 在 这 个 竞赛 中 ,分 数 以 如 下 方式 计算 : 

分 数 = MIN( 精 度 , 召回 率 ) 
这 样 设 定 分 数 ， 是 为 了 让 参赛 者 不 仅仅 专注 于 预测 患者 大 部 分 时 间 将 存活 并 获得 良好 的 F1 
评分 ， 而 是 专注 于 预测 患者 何 时 会 死亡 (始终 专注 在 临床 相关 上 )。 这 是 场景 会 影响 模型 
评估 方法 的 一 个 很 好 的 例子 。 
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处 理 类 别 不 平衡 的 方法 
第 6 章 将 介绍 解决 类 别 不 平衡 的 实用 方法 。 我 们 将 在 分 类 和 回归 的 场景 下 ， 
更 细致 地 从 不 同 角度 研究 类 别 不 平衡 和 误差 分 布 。 








1.8 ”建立 对 机 器 学 习 的 理解 


本 章 介绍 了 为 实践 机 器 学 习 所 需 了 解 的 核心 概念 。 我 们 围绕 下 面 的 方程 ， 回 顾 了 建 模 时 要 
用 到 的 核心 数学 概念 。 








Ax=b 
本 章 还 研究 了 将 特征 转换 为 矩阵 4 的 核心 思想 ， 改 变 参 数 向 量 x 以 及 在 向 量 中 设置 结果 的 
方法 ， 还 介绍 了 一 些 改变 参数 向 量 x， 使 目标 函数 的 分 数 (或 “损失 ”) 最 小 的 基本 方法 。 
本 书后 面 的 章节 将 继续 扩展 这 些 关键 概念 ， 介 绍 神经 网 络 和 深度 学 习 如 何在 这 些 基本 原理 
的 基础 上 ， 使 用 更 复杂 的 方法 来 创建 矩阵 4， 通过 优化 方法 修改 参数 向 量 x， 并 在 训练 期 
间 测 量 损失 。 接 下 来 进入 第 2 章 ， 这 一 章 将 在 神经 网 络 的 基础 上 进一步 介绍 这 些 概念 。 



































第 2 章 


神经 网 络 基础 与 深度 学 习 





2.1 神经 网 络 
神经 网 络 是 一 种 计算 模型 ， 它 与 动物 的 大 脑 有 一 些 共性 : 其 中 许多 简单 的 单元 能 够 并 行 工 
作 ， 并 不 需要 中 央 控 制 单元 协调 。 单 元 之 间 的 权重 是 神经 网 络 中 长 期 存储 信息 的 主要 手 
段 ， 更 新 权重 是 神经 网 络 学 习 新 信息 的 主要 方式 。 
第 1 章 讨论 了 Ax=5b 形式 的 方程 组 的 建 模 。 在 神经 网 络 领 域 ， 矩阵 4 仍 是 输入 数据 ， 列 向 
量 b 仍 是 矩阵 4 中 每 一 行 的 标签 或 结果 。 神 经 网 络 连接 的 权重 是 x (参数 向 量 ) 。 
神经 网 络 的 行为 由 其 网 络 架 构 决 定 。 网 络 架 构 (部 分 ) 定义 如 下 : 
并 神经 元 数量 ， 
层 数 ; 
层 之 间 的 连接 类 型 。 
最 著名 且 最 容易 理解 的 神经 网 络 是 前 馈 多 层 神经 网 络 。 它 有 一 个 输入 层 、 一 个 或 多 个 隐藏 
层 和 一 个 输出 层 。 每 层 有 不 同 数量 的 神经 元 ， 并 且 每 层 完 全 连接 到 相 邻 层 。 层 中 神经 元 之 
间 的 连接 形成 无 环 图 ， 如 图 2-1 所 示 。 
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输入 值 输入 层 隐藏 层 1 隐藏 层 2 输出 层 
2-1: 多 层 神经 网 络 拓扑 

















只 要 给 定 足 够 的 人 工 神 经 元 单元 ， 前 馈 多 层 神 经 网 络 就 可 以 表示 任何 函数 。 它 通常 使 用 被 
称 为 反 向 传播 学 习 的 学 习 算法 进行 训练 。 反 向 传播 在 神经 网 络 中 的 连接 权重 上 使 用 梯度 下 
降 (参见 第 1 章 ) ， 以 此 最 小 化 网 络 输出 的 误差 。 





局 部 最 小 值 与 反 向 传播 
反 向 传播 可 能 会 陷入 局 部 最 小 值 ， 但 在 实践 中 通常 表现 良好 。 











历史 上 ， 人 们 一 直 认 为 反 向 传播 很 缓慢 ， 但 最 近 由 于 并 行 计算 和 图 形 处 理 单 元 (GPU) 带 
来 了 计算 能 力 的 提升 ， 人 们 对 它 重新 燃 起 了 兴 
在 互联 网 和 文献 中 有 许多 对 神经 网 络 与 人 类 思维 之 间 联 系 的 自以为是 的 见解 ， 我 们 需要 从 
巨大 的 噪声 中 明 辨 真知。 下 面 介 绍 人 工 神经 网 络 从 生物 学 获取 的 灵感 。 
思维 的 机 械 论 观点 
比 起 构建 一 棵 需要 明确 所 有 输入 的 严格 定义 的 树 ， 我 们 可 以 构建 一 个 反映 外 
部 世界 发 送 给 我 们 的 部 分 且 模 糊 的 信息 的 模型 ， 从 中 做 出 相对 而 不 是 完全 确 
定 的 推断 。 
神经 网 络 的 这 个 特点 代表 了 它 与 20 世纪 初 占 主导 地 位 的 思维 的 机 械 论 观点 
的 决裂 ， 这 种 观点 认为 我 们 的 大 脑 以 一 种 确定 性 的 方式 与 世界 联系 在 一 起 
(就 像 两 个 路 合 在 一 起 的 齿轮 ) ， 它 接受 明确 的 输入 ， 从 而 产生 明确 的 输出 。 
现在 我 们 认为 ， 人 类 是 基于 不 完整 的 ， 甚 至 有 时 是 矛盾 的 信息 ， 找 到 前 进 和 
行动 的 方法 的 。 人 脑 基 于 概率 进行 推断 ， 神 经 网 络 也 是 如 此 。 
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我 们 将 简单 回顾 生物 神经 元 ， 然 后 介绍 现代 神经 网 络 的 前 身 : 感知 器 。 基 于 对 感知 器 的 理 
解 ， 我 们 将 看 到 它 是 如 何 演 变 为 支撑 现代 前 馈 多 层 感 知 器 的 、 更 通用 的 人 工 神 经 元 的 。 本 
章 则 在 为 现代 神经 网 络 实践 者 深入 挖 气 更 多 奇妙 的 深度 网 络 架构 打下 基础 。 


2.1.1 生物 神经 元 


生物 神经 元 ( 见 图 2-2) 是 为 所 有 动物 的 神经 系统 提供 基本 功能 单元 的 神经 细胞 。 神 经 元 相互 
沟通 ， 通 过 突 触 将 电化 学 脉冲 从 一 个 细胞 传递 到 下 一 个 细胞 ， 只 要 脉冲 强 到 足以 突破 突 触 间 
隙 ， 能 够 激活 化 学 物质 的 释放 。 脉 冲 的 强度 必须 超过 最 小 阔 值 ， 否 则 化 学 物质 不 会 被 释放 。 









































细胞 体 (神经 元 胞 体 ) 细胞核 








图 2-2: 生物 神经 元 





图 2-2 展示 了 神经 细胞 的 主要 部 分 : 
。 神经 元 胞 体 
。 树 突 
。 轴 突 
突 触 
神经 元 由 一 个 神经 细胞 构成 ， 而 神经 细胞 由 一 个 神经 元 胞 体 (细胞 体 ) 构成 ， 这 种 胞 体 有 
许多 树 突 ， 但 只 有 一 个 轴 突 ， 然 而 单个 轴 突 可 以 分 支 数 百 次 。 树 突 是 从 主 细胞 体 突出 来 的 
细 长 结构 。 轴 突 是 从 细胞 体 延伸 出 来 的 具有 特殊 扩展 的 神经 纤维 。 
1. 突 触 
突 触 是 轴 突 与 树 突 之 间 的 连接 点 。 大 多 数 突 触 从 一 个 神经 元 的 轴 突 向 另 一 个 神经 元 的 树 突 
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发 送信 号 。 例 外 的 情况 是 神经 元 可 能 缺少 树 突 ， 或 缺少 轴 突 ， 又 或 者 缺少 连接 两 个 轴 突 的 
突 触 。 
2. 树 突 
在 神经 细胞 周围 浓密 的 网 络 中 ， 树 突 的 纤维 从 神经 元 胞 体 延 伸 出 来 。 树 突 允 许 细 胞 从 邻接 
的 神经 元 接收 信号 ， 每 个 树 突 能 够 乘 以 它 的 权重 值 。 这 里 做 乘法 意味 着 突 触 神经 递 质 与 引 
入 树 突 的 化 学 信号 的 比率 的 增 大 或 减 小 。 
3. 轴 突 
轴 突 是 从 主神 经 元 胞 体 延伸 出 来 的 单个 长 纤维 。 其 延伸 的 距离 比 树 突 长 ， 长 度 一 般 为 1 厘 
米 ( 神 经 元 胞 体 直 径 的 100 倍 )。 最 终 ， 轴 突 将 分 又 并 连接 到 其 他 树 突 。 神 经 元 能 够 通过 
跨 膜 电压 的 变化 发 送 电 化 学 脉冲 ， 从 而 产生 动作 电位 。 这 个 信号 沿 细 胞 的 轴 突 传播 ， 并 没 
话 与 其 他 神经 元 的 突 触 连接 。 
4. 跨 生 物 神 经 元 的 信息 流 
增加 电位 的 突 触 被 认为 是 刺激 性 的 ， 而 那些 降低 电位 的 突 触 被 认为 是 抑制 性 的 。 可 塑性 指 
因 输入 的 刺激 而 产生 的 连接 强度 的 长 期 变化 。 神 经 元 也 被 证 明 会 随 着 时 间 推 移 形成 新 的 连 
接 ， 其 至 迁移 。 这 些 连接 改变 的 机 制 推 动 了 生物 大 脑 中 的 学 习 过 程 。 
5. 从 生物 神经 元 到 人 工 神经 元 
动物 的 大 脑 已 被 证 明 是 产生 思想 的 基本 组 成 部 分 。 我 们 可 以 研究 大 脑 的 基本 组 成 部 分 并 了 
解 它 们 。 研 究 已 经 发 现 了 标记 大 脑 各 部 分 功能 并 追踪 信号 在 神经 元 中 传递 的 方法 。 
CNN 与 哺乳 动物 的 视觉 系统 
本 书后 面 的 章节 将 介绍 一 个 被 称 为 CNN 的 深度 网 络 。CNN 在 不 同 层 的 图 像 
表现 与 大 脑 处 理 视觉 信息 的 做 法 相似 。 虽 然 这 项 研究 很 有 趣 ， 但 并 不 意味 着 
CNN 是 对 哺乳 动物 大 脑 活动 的 完全 模仿 。 
然而 ， 我 们 仍然 没有 完全 理解 这 种 去 中 心 化 的 功能 单元 集合 是 如 何 为 思想 和 意识 的 产生 提 
供 基础 的 。 






























































意识 的 产生 地 

18 世纪 ， 人 们 开始 认识 到 大 脑 才 是 “意识 的 产生 地 ”。19 世纪 晚期 ,动物 大 
脑 的 各 部 分 逐渐 被 标记 出 来 ， 以 便 更 好 地 理解 其 功能 区 域 。 之 前 人 们 认为 意 
识 的 产生 地 是 心脏 ， 黄 至 还 有 人 认为 是 脾脏 。 


了 解 了 生物 神经 元 工作 原理 的 基础 知识 之 后 ， 接 下 来 介绍 人 们 对 神经 元 建 模 的 首次 尝试 : 
感知 器 的 出 现 。 
2.1.2 感知 器 


感知 器 是 用 于 二 元 分 类 的 线性 模型 。 在 神经 网 络 领域 ， 感 知 器 被 认为 是 使 用 单位 阶 跃 
函数 作为 激活 函数 的 人 工 神经 元 ， 本 章 稍 后 将 详细 介绍 这 两 个 概念 。 感 知 器 的 前 身 是 
McCulloch 和 Pitts 在 1943 年 开发 的 疹 值 逻辑 单元 (TLU)， 它 可 以 学 习 与 (AND) 和 或 
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(OR) 逻辑 函数 。 感 知 器 训练 算法 被 认为 是 监督 学 习 算 法 。 随 着 下 面 的 介绍 ， 你 会 了 解 到 
TLU 和 感知 器 都 受到 了 生物 神经 元 的 启发 。 
1. 感知 器 的 历史 
感知 器 是 Frank Rosenblatt 于 1957 年 在 康 奈 尔 航空 实验 室 发 明 的 。 它 由 美国 海军 研究 办 公 
室 资 助 ， 并 被 《纽约 时 报 》 报 道 了 : 
电子 计算 机 的 锥 形 , (海军 ) 期 望 它 能 行走 、 说 话 、 看 、 写 、 复 制 自己 ， 并 意识 
到 自己 的 存在 。 
显然 这 些 预测 有 些 草 率 ， 因 为 我 们 已 经 见 过 人 们 对 机 器 学 习 和 人 工 智 能 前 景 的 夸大 宣传 。 
它 的 早期 版 本 打算 用 物理 机 器 而 不 是 软件 程序 来 实现 。 它 的 第 一 个 软件 实现 是 为 IJBM 704 
开发 的 ， 之 后 它 在 MarkI 感知 器 中 得 到 实现 。 
还 应 该 了 解 的 一 点 是 ，McCulloch 和 Pitts 在 1943 年 还 基于 阔 值 和 加 权 和 引入 了 “神经 活 
动 分 析 ” 这 个 基本 概念 ， 它 们 是 为 之 后 的 变 体 (如 感知 器 ) 开发 模型 的 关键 。 
Mark | 感知 器 
Mark I 感知 器 是 美国 海军 为 军事 目的 而 设计 的 图 像 识 别 系统 。Mark I 感知 器 
有 400 个 光电 凶 连 接 到 机 器 中 的 人 工 神经 元 ， 权 重 由 电位 器 实现 。 权 重 更 新 
由 电动 机 实现 。 


2. 感知 器 的 定义 

感知 器 是 一 个 线性 模型 的 二 元 分 类 器 ， 具 有 简单 的 输入 - 输出 关系 ， 如 图 2-3 所 示 。 我 们 
将 半 个 输入 值 与 其 相关 权重 相 乘 ， 然 后 求 和 ， 再 将 这 个 “ 净 输 入 ”发 送 到 定义 了 国 值 的 单 
位 阶 跃 函 数 。 在 感知 器 中 ， 这 通常 是 一 个 国 值 为 0.5 的 单位 阶 跃 国 数 ， 它 会 根据 输入 ， 输 
出 单个 实数 二 元 值 (0 或 1)。 
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感知 器 
分 类 输 
出 (0，1) 














2-3: 单 层 感知 器 
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可 以 对 单位 阶 跃 函数 方程 中 的 决策 边界 和 分 类 输出 建 模 ， 如 下 所 示 。 
_ 有 0 Xx<0 
TS 0 


为 了 产生 激活 函数 的 净 输 入 (这 里 是 单位 阶 跃 函数 )， 取 输入 和 连接 权重 的 点 积 。 在 图 2-3 
的 左 半 部 分 可 以 看 到 ， 这 些 结果 会 作为 求 和 函数 的 输入 。 表 2-1 展示 了 求 和 国 数 是 如 何 计 
算 的 ， 还 对 求 和 函数 的 参数 进行 了 说 明 。 


表 2-1: 求 和 函数 的 参数 








函数 参数 说 明 

w 连接 的 实数 权重 向 量 

0. 点 积 (Swx) 

n 感知 器 输入 的 个 数 

b 偏 置 项 (输入 值 不 影响 它 的 值 ， 它 使 决策 边界 偏离 原点 ) 





阶 跃 函数 (激活 函数 ) 的 输出 是 感知 器 的 输出 ， 并 给 出 输入 值 的 分 类 。 如 果 偏 置 值 为 负 ， 
它 将 迫使 学 得 的 权重 和 为 更 大 的 值 ， 以 获得 值 为 1 的 分 类 输出 。 偏 置 项 移动 模型 的 决策 边 
界 。 输 入 值 不 影响 偏 置 项 ， 但 偏 置 项 通过 感知 器 学 习 算法 学 得 。 


单 层 感知 器 
在 神经 网 络 的 研究 中 ， 感 知 器 更 广泛 的 称谓 是 “ 单 层 感知 器 "， 以 区 别 于 它 
的 继任 者 “多 层 感 知 器 ”。 




















作为 一 个 基本 的 线性 分 类 器 ， 单 层 感知 器 是 前 馈 神经 网 络 家 族 最 简单 的 形式 。 


感知 器 与 生物 神经 元 的 关系 

虽然 没有 一 个 完整 的 模型 来 解释 大 脑 是 如 何 工 作 的 ， 但 我 们 确实 看 到 感知 器 
仿照 了 生物 神经 元 。 感 知 器 采取 与 突 触 向 其 他 生物 神经 元 传递 信息 相似 的 方 
式 ， 从 与 之 相连 的 、 有 权重 的 连接 获取 输入 。 





3. 感知 器 学 习 算法 

感知 器 学 习 算法 改变 感知 器 模型 中 的 权重 ， 直 到 所 有 输入 记录 都 被 正确 分 类 。 如 果 学 习 的 
输入 不 是 线性 可 分 的 ， 算 法 就 不 会 终止 。 线 性 可 分 的 数据 集 指 我 们 可 以 找到 一 个 超 平 面 的 
值 ， 干 净 地 将 数据 集 划 分 为 两 类 。 


感知 器 学 习 算 法 在 训练 开始 时 用 小 的 随机 值 或 0.0 初始 化 权重 向 量 。 正 如 我 们 在 图 2-3 中 看 
到 的 ， 感 知 器 学 习 算 法 获取 每 个 输入 记录 ， 之 后 计算 输出 分 类 ， 并 检查 它 与 实际 的 分 类 标签 
是 否 相同 。 为 了 产生 分 类 ， 列 (特征 ) 将 组 成 权重 ， 其 中 是 输入 己 权重 的 维度 。 第 一 个 输 
入 值 是 偏 置 输入 ， 它 总 为 1.0， 因 为 我 们 不 会 影响 偏 置 输入 。 在 这 个 图 中 ， 第 一 个 权重 是 偏 
置 项 。 输 入 向 量 和 权重 向 量 的 点 积 成 为 了 激活 函数 的 输入 ， 正 如 之 前 所 探讨 的 一 样 。 


















































如 果 分 类 正确 ， 我 们 不 会 调整 权重 。 如 有 果 分 类 不 正确 ， 就 需要 相应 地 调整 权重 。 通 过 “在 
线 学 习 ” 的 方式 ， 更 新 各 个 训练 样本 之 间 的 权重 。 这 个 循环 一 直 持 续 到 所 有 输入 样本 都 被 
正确 分 类 为 止 。 如 果 数 据 集 不 是 线性 可 分 的 ， 训 练 算法 就 不 会 终止 。 图 2-4 展示 了 一 个 线 
性 不 可 分 的 异 或 逻辑 函数 的 数据 集 。 











Xo Xi y 
0 0 0 
0 1 1 
1 0 1 
1 1 0 














图 2-4: 异 或 函数 


一 个 基本 的 感知 器 〈 单 层 感知 器 ) 不 能 解决 异 或 逻辑 建 模 问 题 ， 这 体现 了 早期 感知 器 模型 
的 局 限 性 。 

4. 早期 感知 器 的 局 限 性 

在 尝 到 甜头 之 后 ， 人 们 发 现 感知 器 能 识别 的 模式 类 型 有 限 。 最 初 无 法 解决 非 线 性 (例如 线 
性 不 可 分 的 数据 集 ) 问题 被 视 为 神经 网 络 领域 的 一 个 失败 。Minsky 和 Papert 在 1969 年 出 
版 的 《感知 器 》 一 书 中 阐释 了 单 层 感知 器 的 局 限 性 。 然 而 业界 还 没有 广泛 认识 到 ， 在 众多 
的 非 线 性 问题 之 中 ， 多 层 感 知 器 其 实 可 以 解决 异 或 问题 。 

人 工 智能 的 寒冬 1: 1974 一 1980 

对 多 层 感知 器 能 力 的 误解 是 人 工 智 能 早期 的 一 个 巨大 挫折 ， 之 后 的 十 年 人 们 
降低 了 对 神经 网 络 的 兴趣 及 资金 投入 。 直 到 20 世纪 80 年 代 中 期 ， 随 着 反 向 
传播 算法 的 流行 (虽然 反 向 传播 算法 最 初 在 1974 年 由 Webos 提出 )， 人 工 智 
能 才 再 度 复兴 ， 神 经 网 络 开始 了 它 的 第 二 次 浪潮 。 
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2.1.3 多 层 前 馈 网 络 


多 层 前 馈 网 络 是 具有 一 个 输入 层 、 一 个 或 多 个 隐藏 层 和 一 个 输出 层 的 神经 网 络 。 每 一 层 都 
有 一 个 或 多 个 人 工 神 经 元 。 这 些 人 工 神经 元 与 它们 的 前 身 感 知 器 相似 ， 但 根据 网 络 中 每 一 
层 特定 目的 的 不 同 ， 具 有 不 同 的 激活 函数 。 本 章 稍 后 将 更 深入 地 探讨 多 层 感知 器 中 层 的 类 
型 。 接 下 来 先 仔 细 了 解 为 解决 单 层 感 知 器 的 局 限 性 而 出 现 的 这 个 进化 的 人 工 神经 元 。 
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1. 人 工 神经 元 的 进化 
多 层 感 知 器 的 人 工 神经 元 类 似 于 它 的 前 身 一 感知 器 ， 但 是 它 在 可 使 用 的 向 活 层 类 型 上 增 
加 了 灵活 性 。 图 2-5 是 基于 感知 器 的 更 新 后 的 人 工 神经 元 示意 图 。 
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2-5: 多 层 感知 器 的 人 工 神 经 元 














该 示意 图 类 似 于 图 2-3 的 单 层 感 知 器 ， 但 图 中 使 用 的 是 更 泛 化 的 激活 函数 。 之 后 将 进一步 
拓展 这 张 示 意图 ， 详 细 讲解 人 工 神 经 元 。 
关于 “神经 元 ”一 词 的 说 明 
从 这 里 开始 一 直到 本 书 的 末尾 ,“ 神 经 元 ”这 个 词 指 基于 图 2-5 的 人 工 神 
经 元 。 
































激活 函数 的 净 输 入 仍然 是 权重 和 输入 特征 的 点 积 ， 但 灵活 的 激活 函数 允许 我 们 根据 它 的 输 
出 值 创建 不 同类 型 的 输出 。 这 是 与 之 前 使 用 分 段 线性 单位 阶 跃 函 数 的 感知 器 设计 的 主要 不 
同 ， 这 种 改进 使 得 人 工 神经 元 现在 可 以 表示 更 复杂 的 激活 输出 。 

人 工 神 经 元 输入 。 人 工 神经 元 ( 见 图 2-6) 将 输入 值 乘 以 连接 上 的 权重 ， 输 入 可 以 被 忽略 
(通过 输入 连接 上 的 0.0 权重 值 控制 ) 或 者 传 给 激活 函数 。 如 果 不 提 供 非 零 的 激活 值 作为 输 
出 ， 那 么 激活 函数 还 能 过 滤 数 据 。 
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2-6: 多 层 感知 器 神经 网 络 中 人 工 神经 元 的 细节 


如 图 2-6 所 示 ， 神 经 元 的 净 输 入 表示 为 连接 上 的 权重 乘 以 进入 连接 的 激活 值 。 对 于 输入 层 ， 
我 们 只 考虑 特定 索引 的 特征 ， 并 且 激 活 函 数 是 线性 的 ( 它 传递 特征 值 )。 对 于 隐藏 层 ， 输 入 是 
来 自 其 他 神经 元 的 激活 值 。 在 数学 上 ， 可 以 将 人 工 神经 元 的 净 输 入 〈 总 加 权 输 入 ) 表示 为 : 
input _ sum; = W,: A; 
其 中 ，1rt 是 通 向 神经 元 i 的 所 有 权重 的 向 量 ， 而 4, 是 神经 元 i 的 输入 的 激活 值 的 向 量 。 我 
们 在 每 一 层 增加 偏 置 项 ， 建 立 下 面 这 个 方程 〈 稍 后 详细 解释 ) : 
input sumy = W;: Ai+b 
为 了 从 神经 元 产生 输出 ， 接 着 用 一 个 激活 函数 g 封装 这 个 净 输 入 ， 方 程 如 下 所 示 : 
a;= g (input_sum,) 
然后 我 们 可 以 用 input 的 定义 展开 这 个 函数 : 
a;=g(W,: A;+ 5) 
输出 的 神经 元 i 的 激活 值 作为 输入 值 ， 通 过 到 其 他 人 工 神经 元 的 连接 〈( 乘 以 连接 上 的 权重 ) 
传递 到 下 一 层 。 
不 同 的 表示 方法 
在 研究 论文 中 经 常 能 见 到 下 面 这 种 人 工 神 经 元 输出 的 替代 表示 方法 : 
hs(x) = 2(w: x+b) 
这 种 表示 方法 与 前 面 的 方程 略 有 不 同 。 这 里 展示 这 个 替代 的 表示 方法 ， 是 想 
说 明 一 些 论文 会 使 用 稍微 不 同 的 表示 方法 来 解释 这 些 概念 ， 希 望 你 能 够 识别 
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如 果 激 活 函 数 是 sigmoid 函数 ， 将 得 到 : 





8(z)= 


l+e 
这 个 输出 的 范围 是 [0, 1]， 与 逻辑 回归 函数 的 输出 相同 。 
sigmoid 激活 函数 在 实践 中 的 应 用 
这 里 列 出 sigmoid 激活 函数 是 因为 它 曾经 流行 过 ， 之 后 会 介绍 ，sigmoid 激活 
函数 的 受 欢迎 程度 已 经 大 不 如 前 。 


























输入 是 想 从 中 产生 信息 的 数据 ， 连 接 权重 和 偏 置 是 用 于 控制 活动 (激活 或 不 激活 ) 的 数 
值 。 与 感知 器 一 样 ， 有 一 种 学 习 算 法 可 用 来 改变 每 个 人 工 神经 元 的 权重 和 偏 置 值 。 在 训 
练 阶 段 ， 随 着 网 络 学 习 的 进行 ， 权 重 和 偏差 会 发 生变 化 。 本 章 稍 后 会 介绍 神经 网 络 的 学 
习 算法 。 

就 像 生物 神经 元 不 会 将 它们 接收 的 每 一 个 电化 学 脉冲 都 传递 下 去 一 样 ， 人 工 神经 元 也 不 仅 
仅 是 传递 信号 的 电线 或 二 极 管 。 它 们 是 有 选择 性 的 。 它 们 过 着 接收 到 的 数据 ， 并 只 聚合 、 
转换 和 传输 特定 的 信息 到 网 络 中 的 下 一 个 神经 元 。 当 这 些 过 滤器 和 转换 器 作用 于 数据 时 ， 
它们 能 在 更 大 的 多 层 感知 器 神经 网 络 中 将 原始 输入 数据 转换 为 有 用 信息 。 稍 后 将 详细 地 展 
示 这 种 效果 。 
人 工 神 经 元 可 以 通过 它们 能 够 接收 的 输入 的 种 类 (二 元 值 或 连续 值 ) 和 用 来 产生 输出 的 转 
换 的 种 类 (激活 函数 ) 来 定义 。 在 DL4 中 ， 同 一 层 的 所 有 神经 元 具有 相同 的 激活 函数 。 


连接 权重 。 神 经 网 络 中 的 连接 权重 是 对 网 络 中 指定 神经 元 的 输入 信号 进行 缩放 (放大 或 最 
小 化 ) 的 系数 。 在 神经 网 络 中 ， 这 些 一 般 表 示 为 从 一 点 到 另 一 点 的 线 或 箭头 ， 即 数学 图 的 
边 。 在 神经 网 络 的 数学 表示 方法 中 ， 连 接 权 重 通常 表示 为 w。 


偏 置 。 偏 置 是 被 加 到 输入 的 标量 值 ， 以 确保 无 论 信号 强度 如 何 ， 每 层 至 少 有 几 个 节点 被 激 
活 。 偏 置 使 得 学 习 能 够 在 低 信号 事件 触发 的 网 络 中 进行 。 它 允许 网 络 尝 试 新 的 解释 或 行 
为 。 偏 置 通常 表示 为 了 »， 并 且 像 权重 一 样 ， 会 在 整个 学 习 过 程 中 被 修改 。 

激活 函数 。 控 制 人 工 神经 元 行为 的 函数 称 为 激活 函数 。 输 入 的 传输 被 称 为 前 向 传播 。 激 活 
函数 对 输入 、 权 重 和 偏 置 整体 进行 转换 。 这 些 转换 的 结果 作为 下 一 个 市 点 层 的 输入 。 在 
神经 网 络 中 使 用 的 许多 (但 非 全 部 ) 非 线 性 转换 将 数据 转换 到 一 个 方便 处 理 的 范围 ， 例 
如 0 到 1, 或 -1 到 1。 当 一 个 人 工 神 经 元 传递 一 个 非 零 值 到 另 一 个 人 工 神经 元 时 ， 它 就 
被 激活 了 。 















































激活 值 
激活 值 是 每 个 从 前 一 层 传递 到 下 一 层 的 值 。 这 些 值 是 每 个 人 工 神 经 元 的 激活 
函数 的 输出 。 


2.3 节 将 介绍 广义 的 神经 网 络 中 激活 函数 的 不 同类 型 及 其 一 般 功 能 。 





激活 函数 及 其 重要 性 
本 书 之 后 几乎 每 一 章 都 会 持续 讲解 激活 函数 及 其 用 法 。DL4J 库 使 用 围绕 不 
同类 型 激活 函数 的 、 基 于 层 的 架构 。 




















2. 生物 神经 元 与 人 工 神经 元 的 比较 

如 果 重 新 思考 作为 人 工 神经 元 基础 的 生物 神经 元 ， 我 们 可 能 会 问 :“ 人 工 神经 元 与 生物 神 
经 元 是 如 何 匹配 的 ? ”人 工 神经 元 的 概念 在 生物 神经 元 上 的 对 应 关系 是 : 输入 连接 功能 由 
生物 神经 元 中 的 树 突 提 供 ， 计 算 总 和 的 功能 由 神经 元 胞 体 提供 。 最 后 ， 激 活 功能 由 生物 神 
经 元 中 的 轴 突 提供 。 

比较 的 局 限 性 

我 们 (再次) 注意 到 ， 生 物 神 经 元 仍然 比 人 工 神经 元 更 复杂 。 研 究 正 在 努力 
更 好 地 理解 生物 神经 元 的 功能 。 





3. 前 馈 神经 网 络 架 构 

了 解 了 人 工 神经 元 和 感知 器 之 间 的 区 别 ， 就 可 以 更 好 地 理解 全 连接 多 层 前 馈 神经 网 络 的 架 
构 。 在 多 层 前 馈 神经 网 络 中 ， 人 工 神经 元 被 排列 成 组 ， 这 些 组 称 为 层 。 以 层 概 念 为 基础 ， 
多 层 神 经 网 络 具 有 以 下 组 成 部 分 : 





。 一 个 输入 层 ， 
。 一 个 或 多 个 全 连接 的 隐藏 层 ， 
。 一 个 输出 层 。 





如 图 2-7 所 示 ， 每 一 层 的 神经 元 〈 用 圆圈 表示 ) 都 完全 连接 到 所 有 相 邻 层 的 所 有 神经 元 。 
每 层 的 神经 元 (大 部 分 时 间 ) 都 使 用 相同 类 型 的 激活 函数 。 输 入 层 的 输入 是 原始 的 向 量 输 
入 。 其 他 层 神 经 元 的 输入 是 前 一 层 神 经 元 的 输出 (激活 值 )。 当 数据 以 前 馈 的 方式 通过 网 
络 移动 时 ， 会 受到 连接 权重 和 激活 函数 类 型 的 影响 。 下 面 看 看 每 一 类 层 的 细 市 。 



























































输入 什 输入 层 隐藏 层 1 隐藏 层 2 输出 层 
图 2-7: 全 连接 多 层 前 馈 神经 网 络 的 拓扑 
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输入 层 。 这 一 层 是 输入 数据 (向量) 进入 网 络 的 入 口 。 输 入 层 中 神经 元 的 数量 通常 与 网 
络 输入 特征 的 数量 相同 。 输 入 层 之 后 是 一 个 或 多 个 隐藏 层 ( 稍 后 解释 )。 典 型 前 馈 神 经 网 
络 中 的 输入 层 完 全 连接 到 下 一 个 隐藏 层 ， 但 在 其 他 网 络 架构 中 ， 输 入 层 也 许 不 是 完全 连 
接 的 。 

隐藏 层 。 前 馈 神 经 网 络 中 有 一 个 或 多 个 隐藏 层 。 层 与 层 之 间 连 接 的 权重 值 是 神经 网 络 对 从 
原始 训练 数据 中 提取 的 学 习 信 息 进行 编码 的 方法 。 隐 藏 层 是 神经 网 络 对 非 线性 函数 建 模 的 
关键 ， 正 如 在 单 层 感知 器 网 络 的 局 限 性 中 所 看 到 的 。 


输出 层 。 模 型 的 输出 层 给 出 答案 或 预测 。 鉴 于 使 用 神经 网 络 模型 将 输入 空间 映射 到 输出 空 
间 ， 输 出 层 基 于 输入 层 的 输入 给 出 输出 。 根 据 神经 网 络 的 设置 ， 最 终 输出 是 实 值 输出 〈 回 
归 ) 或 一 组 概率 (分 类 )。 这 由 应 用 于 输出 层 神经 元 上 的 激活 函数 的 类 型 所 控制 。 输 出 层 
通常 使 用 softmax 或 sigmoid 激活 函数 进行 分 类 。 本 章 稍 后 将 探讨 这 两 种 激活 函数 之 间 的 
区 别 。 

层 之 间 的 连接 。 在 全 连接 的 前 馈 网络 中 ， 层 之 间 的 连接 是 从 前 一 层 中 的 所 有 神经 元 到 下 一 
层 中 的 所 有 神经 元 的 外 出 连接 。 随 着 算法 使 用 反 向 传播 学 习 算 法 找到 它 所 能 找到 的 最 佳 解 
决 方案 ， 我 们 逐步 改变 这 些 权 重 。 在 数学 上 ， 可 以 将 权重 理解 为 1.3 节 中 的 参数 向 量 ， 该 
节 将 机 器 学 习 描 述 为 通过 优化 参数 向 量 (例如 ， 这 里 的 “权重 ”) 最 小 化 误差 的 过 程 。 


介绍 过 了 前 馈 神 经 网 络 的 基本 结构 ， 本 章 剩余 部 分 将 详细 介绍 反 向 传播 的 训练 机 制 及 激活 
函数 的 细节 ， 最 后 会 介绍 常用 的 损失 函数 和 超 参数 。 


2.2 训练 神经 网 络 


一 个 训练 有 素 的 人 工 神 经 网 络 具 有 能 够 放大 信号 和 抑制 噪声 的 权重 。 更 大 的 权重 意味 着 信 
号 和 网 络 结果 之 间 的 联系 更 紧密 。 与 权重 值 较 小 的 输入 相 比 ， 权 重 值 较 大 的 输入 会 对 网 络 
对 数据 的 解释 有 更 大 影响 。 

使 用 权重 训练 任何 学 习 算 法 是 调整 权重 和 偏 置 的 过 程 ， 它 使 其 中 一 些 值 更 小 ， 另 外 的 值 更 
大 ， 从 而 将 重要 性 分 配给 某 些 信息 位 并 最 小 化 其 他 的 位 。 这 有 助 于 模型 了 解 哪些 预测 因子 
(或 特征 ) 与 哪些 结果 联系 在 一 起 ， 并 相应 地 调整 权重 和 偏 置 。 

在 大 部 分 数据 集中 ， 某 些 特 征 与 某 些 标签 密切 相关 〈 例 如 ， 面 积 与 房屋 售 价 有 关 )。 神 经 
网 络 基 于 输入 和 权重 进行 猜测 ， 然 后 评估 结果 的 准确 度 ， 使 用 蛮 力 来 学 习 这 些 关 系 。 优 化 
算法 中 的 损失 函数 ， 如 SGD， 会 因 好 的 猜测 而 奖励 网 络 ， 因 坏 的 猜测 而 惩罚 网 络 。SGD 
会 移动 网 络 参数 一 一 接近 好 的 预测 ， 远 离 坏 的 预测 。 

另 一 种 看 待 学 习 过 程 的 方法 是 将 标签 视 为 理论 ， 将 特征 集 视 为 证 据 。 然 后 对 网 络 寻求 建 
理论 和 证 据 之 间 的 相关 性 做 出 类 推 。 该 模型 试图 回答 “证 据 支持 哪个 理论 ”的 问题 。 基 
这 些 思想 ， 接 下 来 介绍 与 神经 网 络 相 关 的 最 常用 的 学 习 算法 : 反 向 传播 学 习 。 


反 向 传播 学 习 
反 向 传播 是 神经 网 络 模型 中 减 小 误差 的 一 个 重要 部 分 。 为 了 解释 反 向 传播 ， 要 回 到 对 信息 
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如 何在 前 馈 神 经 网 络 中 传播 的 讨论 。 先 了 解 这 种 学 习 算 法 是 如 何 工作 的 ， 然 后 再 深入 研究 
反问 传播 学 习 的 数学 符号 和 伪 代 码 。 

反 向 传播 学 习 的 起 源 

反 向 传播 学 习 由 Bryson 和 Ho 于 1969 年 发 明 。 在 神经 网 络 训练 的 研究 和 实 
践 中 ， 它 长 期 被 忽略 ， 直 到 20 世纪 80 年 代 中 期 才 复 兴 。 











1. 算法 的 直觉 
反 向 传播 学 习 类 似 于 感知 器 学 习 算法 。 我 们 希望 随 着 网 络 中 的 前 向 传递 计算 输入 样本 的 输 
出 。 如 果 输 出 匹配 标签 ， 就 什么 也 不 做 ， 如 有 果 输 出 与 标签 不 匹配 ， 则 需要 调整 神经 网 络 中 
连接 的 权重 。 


为 了 详细 说 明 一 般 神经 网 络 的 学 习 过 程 ， 先 来 看 看 算法 的 伪 代 码 ， 如 示例 2-1 所 示 。 
示例 2-1 一 般 的 神经 网 络 训练 伪 代码 


function neural-network-learning( training-records ) returns network 
network <- initialize weights (| 随机 ) 
start loop 
for each example in training-records do 
network-output = neural-network-output( network, example ) 
actual-output = 观测 到 的 样本 的 实际 输出 
update weights in network based on 
{ example, network-output, actual-output } 
end for 


end loop when 所 有 样本 都 被 正确 预测 或 者 达到 了 停止 条 件 

return network 
关键 要 明确 哪些 权重 产生 了 误差 ， 在 导致 误差 产生 的 权重 之 间 划 分 责任 。 感 知 器 学 习 算 法 
要 做 到 这 一 点 很 容易 ， 因 为 每 个 输入 只 有 一 个 权重 会 影响 输出 值 。 而 对 前 馈 多 层 神 经 网 络 
学 习 算法 来 说 ， 挑 战 则 更 大 。 网 络 中 有 很 多 权重 ， 连 接 每 个 输入 和 输出 ， 所 以 做 到 这 一 点 
更 加 困难 。 每 个 权重 都 影响 多 个 输出 ， 所 以 学 习 算 法 必须 更 聪明 。 


反 向 传播 是 一 种 为 每 个 权重 划分 误差 责任 的 实用 方法 。 它 类 似 于 感知 器 学 习 算 法 。 反 向 传 
播 试图 最 小 化 与 训练 的 输入 相关 联 的 标签 的 或 者 “实际 的 ”) 输出 和 从 网 络 输出 产生 的 
值 之 间 的 误差 。 稍 后 将 介绍 大 部 分 神经 网 络 文献 中 使 用 的 前 馈 神经 网 络 的 反 向 传播 的 数学 
符号 。 





















































多 层 网 络 学 习 算法 的 一 个 注意 事项 

多 层 神经 网 络 的 学 习 算 法 既 不 能 保证 收敛 到 全 局 最 优 ， 也 不 是 绝对 高 效 的 。 它 
的 一 个 直接 影响 是 ， 在 最 坏 的 情况 下 ， 如 何 从 训练 样本 得 到 通用 的 函数 是 一 个 
环 手 的 问题 。 不 过 在 一 些 适 合 的 超 参数 调 优 中 ， 学 习 算法 在 实践 中 表现 得 很 好 。 


2. 反 向 传播 的 详细 研究 

本 书 的 绝 大 部 分 无 意 展示 大 量 数学 公式 ， 然 而 对 于 反 向 传播 的 主题 ， 为 了 便于 你 理解 作 
为 本 书 大 部 分 内 容 之 基石 的 一 个 核心 概念 ， 我 们 有 必要 设置 一 市 来 用 数学 符号 说 明 这 些 
概念 。 
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关于 符号 的 说 明 

这 种 符号 类 似 于 你 在 机 器 学 习 的 会 议论 文 或 者 著名 的 机 器 学 习 教 科 书 中 所 看 
到 的 。 我 们 希望 用 一 种 让 你 感觉 舒适 的 方式 来 解释 符号 。 理 想 情 况 下 ， 这 是 
为 你 准备 的 一 块 跳板 ， 此 后 你 将 能 够 探索 更 多 的 神经 网 络 和 深度 学 习 的 论文 。 

















放大 前 一 个 示意 图 ， 聚 焦 在 输入 层 和 第 一 个 隐藏 层 上 ， 如 图 2-8 所 示 。 





























要 隐藏 层 1 
和 险 入 层 的 藏 层 激活 值 
输入 值 输入 层 隐藏 层 1 的 激活 值 





图 2-8: 放大 后 的 多 层 感知 器 网 络 ， 标 上 了 组 件 的 标签 











2-8 中 是 之 前 的 多 层 神 经 网 络 示意 图 放大 后 的 样子 ， 并 且 图 中 的 一 些 符号 也 更 新 了 。 我 
们 将 用 这 些 符号 来 解释 反 向 传播 。 表 2-2 列 出 了 图 中 的 符号 。 

表 2-2: 神经 网 络 的 符号 

符 ”号 解释 

i 人 工 神 经 元 的 索引 

nn 索引 i 处 的 神经 元 

J 前 一 层 中 连接 神经 元 i 的 神经 元 索引 
a 神经 元 i 的 激活 值 (神经 元 i 的 输出 
A, 神经 元 i 的 输入 的 激活 值 向 量 
8 
8 























se 


E 激活 函数 的 导数 
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符 ”号 解释 

Err, 网 络 的 输出 与 训练 样本 的 实际 输出 值 之 间 的 差异 
W. 指向 神经 元 i 的 权重 向 量 

W; 从 前 一 层 的 神经 元 7 到 神经 元 i 的 输入 连接 的 权重 
input_sumy 神经 元 i 的 输入 的 加 权 和 

input_sum, 前 一 层 中 神经 元 j 的 输入 的 加 权 和 (用 于 反 向 传播 ) 
@ 学 习 率 

A, 前 一 层 连 接 神 经 元 j 的 误差 项 

A 神经 元 i 的 误差 项 ;= Err x g‘(input_sum,) 


为 了 详细 解释 该 算法 ， 先 来 看 看 反 向 传播 学 习 算 法 的 伪 代 码 ， 如 示例 2-2 所 示 。 
示例 2-2 更 新 权重 的 反 向 传播 算法 伪 代 码 


function backpropagation-algorithm 
( network, training-records, learning-rate ) returns network 
network <- initialize weights (| 随机 ) 
start loop 
for each example in training-records do 


// 为 这 个 输入 样本 计算 输出 


network-output <- neural-network-output( network, example ) 


// 计 算 输 出 层 中 神经 元 的 误差 和 [ 增 量 


example_err <- target-output - network-output 


// 更 新 通 向 输出 层 的 权重 


WW A—Wtaxa; XErr;,xg'"(input_sum,) 





























for each subsequent-Layer in network do 


// 计 算 每 个 节点 的 误差 
A—g (input sum)2 表 和 A， 


// 更 新 通 向 该 层 的 权重 


Wi Wta Xa xA; 














end for 


end for 
end loop when network has converged 
return network 


关于 伪 代 码 中 损失 函数 的 说 明 

示例 2-2 的 伪 代 码 中 没有 显 式 调用 损失 函数 (本章 稍 后 介绍 )。 考 虑 到 可 读 性 ， 
这 里 以 算法 的 形式 介绍 了 反 向 传播 算法 ， 因 为 这 样 对 普通 的 实践 者 最 友好 。 然 
而 ， 考 虑 到 数学 思维 较 强 的 实践 者 ， 附 录 C 从 数学 角度 解释 了 反 向 传播 。 

在 这 种 情况 下 ，Err 项 依赖 损失 函数 的 导数 。 我 们 使 用 均 方 误差 (MSE)， 因 
此 导数 不 同 。 
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3. 理解 反 向 传播 的 伪 代 码 
示例 2-2 具有 以 下 输入 。 

网 络 : 一 个 多 层 前 馈 神 经 网 络 。 

训练 记录 : 一 组 具有 相关 输出 的 训练 向 量 。 
。 学 习 率 : 学 习 的 速率 (有 了 时 用 希腊 字母 a 表示 )。 
初始 化 神经 网 络 以 启动 算法 ， 并 使 用 输入 样本 开始 循环 〈 直 至 遇 到 终止 条 件 或 达到 最 大 轮 
数 )。 首 先 计算 当前 网 络 对 当前 输入 样本 的 输出 ， 比 较 该 输出 与 输入 相关 的 实际 输出 ， 并 
计算 误差 。 
现在 准备 计算 通 向 输出 层 的 权重 更 新 。 
更 新 输出 层 权 重 。 输 出 层 权 重 更 新 通过 以 下 方式 计算 : 

Wi Wta xX a; X Err; X g(input_sum,) 

这 是 神经 网 络 中 神经 元 j 和 神经 元 i 之 间 的 所 有 连接 的 权重 更 新 规则 。 图 2-9 突出 显示 了 这 
些 通 向 输出 层 的 连接 。 





















































一 并 














图 2-9: 更 新 进入 输出 层 的 连接 

仔细 查看 这 个 示意 图 ， 能 看 到 正在 研究 的 神经 元 j 的 权重 从 前 一 个 隐藏 层 连接 到 当前 神经 
元 i。 我 们 将 学 习 率 a (本 章 稍 后 探讨 ) 乘 以 神经 元 7 传人 的 激活 值 。 这 个 输入 通过 获得 神 
经 元 7 的 净 输 入 ， 然 后 计算 神经 元 7 的 激活 值 算出 。 

为 了 计算 输入 神经 元 i 的 激活 函数 的 总 权重 ， 要 计算 输入 权重 所 和 激活 向 量 4 的 点 积 ， 
然后 添加 偏 置 项 的 值 : 














input sum;= W,: A,+b 
神经 元 7 激活 值 的 计算 公式 如 下 所 示 : 


a;= g(input_sum,) 




















神经 元 i 上 样本 e 的 误差 项 表示 为 Err。 激 活 函 数 的 导数 表示 为 g(x)， 它 被 应 用 于 神经 元 i 
的 净 输 入 ， 表 达 式 如 下 所 示 : 

g'(input_sum;) 
这 个 更 新 规则 类 似 于 更 新 感知 器 的 方法 ， 区 别 在 于 使 用 前 一 层 的 激活 值 ， 而 非 其 原始 输入 
值 。 该 规则 还 包含 激活 函数 导数 的 项 ， 以 得 到 激活 函数 的 梯度 。 
进一步 表示 误差 项 。 前 面 介绍 了 激活 函数 导数 的 表达 式 为 gz)。 误 差 项 通常 表示 为 A，， 
它 的 表达 式 如 下 所 示 : 


























Ai= Err, x ginput_ sum,) 
这 样 就 得 到 一 个 更 紧 竣 的 权重 更 新 函数 ， 如 下 所 示 : 
WW axa,xA, 
我 们 在 现在 探讨 的 这 个 伪 代 码 的 内 部 循环 中 使 用 了 这 个 更 新 表达 式 。 
权重 空间 中 的 梯度 下 降 


我 们 把 反 向 传播 看 作 权重 空间 中 的 梯度 下 降 ， 权 重 空间 中 的 梯度 是 误差 表面 
的 梯度 。 这 个 误差 表面 将 输入 特征 的 误差 描述 为 神经 网 络 中 权重 值 的 函数 。 








误差 值 的 新 传播 规则 。 误 差 变 化 值 的 传播 规则 现在 变 成 下 面 的 表达 式 : 
Aj—g'input_sum) 2 WA; 
这 就 给 出 了 输入 层 和 隐藏 层 之 间 权重 的 一 个 新 的 更 新 规则 。 


更 新 隐藏 层 。 利 用 反 向 传播 算法 ， 回 过 头 来 遍历 隐藏 层 ， 更 新 每 层 之 间 的 连接 ， 直 至 到 达 
输入 层 为 止 。 图 2-10 突出 显示 了 两 个 隐藏 层 之 间 的 连接 。 























W., 
n 
隐藏 层 隐藏 层 输出 层 
(K 层 ) W 层 ) (i 层 ) 








图 2-10: 突出 显示 隐藏 层 之 间 的 连接 
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为 了 更 新 这 些 连 接 ， 要 从 之 前 计算 的 分 配 后 的 误差 值 中 获取 输入 ， 并 将 其 与 来 自前 一 层 连 

接 的 激活 值 (输入 ) 和 学 习 率 相 乘 。 

然后 将 其 加 到 先前 的 权重 值 ， 以 下 是 更 新 后 的 值 : 
Wij— Wi;t+ oa xX arxA, 

那些 因 产 生 误差 而 应 承担 责任 的 权重 和 偏 置 被 前 弱 了 ， 以 限制 其 信号 。 而 那些 传递 了 支持 

正确 答案 的 信号 的 权重 和 偏 置 得 到 了 加 强 。 将 权重 调整 到 最 佳 状态 是 一 个 迭代 过 程 ， 需 要 

一 步 一 步 地 进行 。 








TI 

















反 向 传播 与 误差 责任 的 分 配 
反 向 传播 通过 网 络 反 向 分 配 “ 责 任 "。 每 一 个 向 当前 节点 发 送 输入 的 隐藏 节点 ， 对 它 前 
向 连接 的 每 个 神经 元 的 误差 负 有 部 分 责任 。 
第 一 个 隐藏 层 使 用 来 自 原始 特征 向 量 的 输入 作为 输入 ， 所 有 随后 的 层 使 用 前 一 层 神经 
元 的 激活 值 作为 输入 。 但 是 对 于 输出 层 之 前 的 隐藏 屋 ， 必 须 适 当 分 配 误 差 。 通 过 误差 
反 向 传播 ， 根据 隐藏 节点 与 输出 节点 之 间 的 连接 权重 划分 A; 值 。 
使 用 以 下 方程 计算 前 面 方程 中 的 Ai: 

A=g ‘(input_sum) 2 WA; 

该 方程 考虑 了 当前 层 中 的 每 个 节点 i， 将 当前 误差 值 人; 冬 以 进入 连接 的 权重 和 激活 函 
数 的 导数 。 这 产生 了 前 一 层 中 节点 相应 的 误差 值 ， 我 们 用 这 个 值 更 新 进入 该 层 的 连接 。 
逐 层 执行 这 个 算法 ， 直 到 网 络 的 每 一 层 部 更 新 了 。 











这 些 学 习 步 又 的 长 度 ， 或 者 说 每 次 迭代 改变 的 权重 的 量 ， 被 称 为 学 习 率 。 学 习 率 是 定义 的 
参数 〈 不 是 对 网 络 性 能 的 评估 )。 本 章 稍 后 详细 探讨 超 参 数 时 将 讨论 学 习 率 。 





反 向 传播 与 小 批量 SGD 
第 1 章 介 绍 了 一 种 被 称 为 小 批量 的 SGD 变 体 ， 该 方法 一 次 训练 多 个 样本 ， 而 非 一 次 只 
训练 一 个 样本 。 和 神经 网 络 中 的 反 向 传播 和 SGD 也 使 用 小 批量 来 改进 训练 。 


在 内 部 ， 我 们 计算 小 批量 中 所 有 样本 的 平均 梯度 。 具 体 说 米 ， 通 过 一 系列 线性 代数 矩 
阵 运 算 ， 计算 所 有 样本 的 前 向 传递 以 得 到 其 输出 分 数 。 在 每 层 的 反 向 传递 中 ，( 为 该 
层 ) 计算 梯度 的 平均 值 。 通 过 这 样 的 反 向 传播 ， 能 够 得 到 更 好 的 梯度 近似 ， 同 时 能 
高 效 地 使 用 硬件 。 








人 工 智能 的 寒冬 i，20 世纪 90 年 代 初 

20 世纪 80 年 代 末 及 90 年 代 初 ， 专 家 系统 和 LISP 机 器 等 技术 被 过 度 推广 ， 
这 两 种 技术 都 未 能 达到 预期 。 美 国 国家 战略 计算 计划 在 这 个 周期 结束 时 取消 
了 新 的 支出 预算 ， 第 五 代 计算 机 的 目标 未 能 实现 。 


























2.3 激活 函数 


使 用 激活 函数 将 一 层 市 点 的 输出 传递 到 下 一 层 (直至 进入 输出 层 )。 激 活 函 数 是 从 标量 到 
标量 的 函数 ， 产 生 神 经 元 的 激活 值 。 我 们 使 用 神经 网 络 中 隐藏 神经 元 的 激活 函数 ， 将 非 
线性 引入 网 络 的 建 模 能 力 中 。 许 多 激活 函数 属于 逻辑 类 别 的 转换 ，( 当 图 形 化 时 ) 看 起 来 
像 字 母 S， 这 类 国 数 被 称 为 8 形 函数 。S 型 函数 家 族 包 含 多 个 变 体 ， 其 中 一 个 就 是 著名 的 
sigmoid 函数 。 下 面 介绍 神经 网 络 中 一 些 有 用 的 激活 函数 。 


2.3.1 线性 函数 


线性 转换 〈 见 图 2-11) 基本 上 是 恒 等 函 数 ，ftx) = Wx， 其 中 因 变 量 与 自 变 量具 有 直接 的 比 
例 关 系 。 实 际 上 这 意味 着 函数 传递 着 不 变 的 信号 。 



































图 2-11: 线性 激活 函数 
这 种 激活 函数 用 于 神经 网 络 的 输入 层 中 。 


2.3.2 sigmoid 函数 


和 所 有 逻辑 转换 一 样 ，sigmoid 函数 可 以 减少 数据 中 的 极 值 或 离 群 值 ， 而 不 必 将 其 移 除 。 
图 2-12 中 的 垂直 线 是 决策 边界 。 
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2-12: sigmoid 激活 函数 
sigmoid 函数 是 一 种 把 几 近 无 限 范围 的 自 变量 转换 成 0 和 1 之 间 简 单 概率 的 函数 ， 它 的 大 
部 分 输出 非常 接近 0 或 1。 


理解 sigmoid 函数 的 输出 
sigmoid 激活 函数 为 每 个 分 类 输出 一 个 独立 的 概率 。 





2.3.3 tanh 函数 

tanh 的 发 音 为 tanch， 是 双 曲 三 角 函 数 ( 见 图 2-13 )。 正 如 正切 表示 直角 三 角形 对 边 和 邻 边 
之 间 的 比率 ，tanh 表示 双 曲 正弦 与 双 曲 余弦 之 比 : tanh(x)=sinh(x)/cosh(x)。 与 sigmoid 函数 
不 同 ，tanh 函数 的 规范 化 范围 为 -1 到 1， 其 优势 在 于 可 以 更 容易 地 处 理 负 数 。 


















































2-13: tanh 激活 函数 
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2.3.4 hard tanh 函 数 

与 tanh 函数 类 似 ，hard tanh 函数 简单 地 强制 规定 了 规范 化 范围 ， 任 何 超过 1 的 数值 都 被 转 
化 为 1， 任何 小 于 -1 的 值 都 被 转化 为 -1。 它 适合 作为 更 简单 直接 的 激活 函数 ， 允 许 有 限 
的 决策 边界 。 








2.3.5 ”softmax 函 数 
softmax 是 逻辑 回归 的 一 个 泛 化 ， 因 为 它 可 以 应 用 于 连续 数据 (而 不 是 二 元 分 类 )， 并 且 可 
以 包含 多 个 决策 边界 。 它 处 理 多 项 式 标签 系统 。 在 分 类 器 的 输出 层 中 经 常 能 看 到 softmax 








理解 softmax 函数 的 输出 
softmax 激活 函数 返回 在 互 斥 的 输出 类 别 上 的 概率 分 布 。 




















为 了 详细 说 明 softmax 输出 层 的 概念 以 及 使 用 方法 ， 考 虑 两 个 用 例 。 如 果 有 一 个 多 分 类 
建 模 问题 ， 但 我 们 只 关心 这 些 类 别 的 最 高 得 分 ， 我 们 将 使 用 一 个 带 有 argmax() 函数 的 
softmax 输出 层 来 获得 所 有 类 别 的 最 高 得 分 。 

多 分 类 处 理 

如 果 想 得 到 每 个 输出 的 多 个 分 类 (例如 ,“ 人 + 车 ”)， 不 应 使 用 softmax 作为 
输出 层 。 相 反 ， 应 使 用 sigmoid 输出 层 分 别 给 出 每 个 类 别 的 概率 。 

















对 于 那些 有 一 大 组 标签 (例如 ， 数 以 千 计 的 标签 ) 的 情况 ， 要 使 用 softmax 激活 函数 的 变 
体 ， 它 被 称 为 分 级 softmax (hierarchical softmax) 激活 函数 。 该 变 体 将 标签 分 解 为 树 形 结 
构 ， 并 在 树 的 每 个 节点 训练 softmax 分 类 器 来 指导 分 支 进行 分 类 。 


2.3.6 ”修正 线性 函数 


修正 线性 (rectified linear) 是 一 种 更 有 趣 的 转换 ， 仅 当 输入 高 于 某 个 数量 时 ， 它 才 激 活 节 
点 。 当 输入 小 于 零 时 ， 输 出 为 零 ， 但 当 输 入 上 升 到 某 一 国 值 以 上 时 ， 它 与 因 变 量 产生 线性 
关系 ftx)=max(0, x)， 如 图 2-14 所 示 。 
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2-14: 修正 线性 激活 函数 


修正 线性 单元 (ReLU) 代表 了 当前 的 技术 发 展 水 平 ， 它 已 被 证 明 可 以 在 许多 不 同 的 情况 
下 工作 。 因 为 ReLU 的 梯度 是 常数 (可 为 0)， 所 以 它 可 以 解决 梯度 消失 和 梯度 爆炸 问题 。 
实践 证 明 ReLU 激活 函数 的 训练 效果 好 于 sigmoid 激活 函数 。 
ReLU 激活 函数 不 可 思议 的 有 效 性 
与 sigmoid 和 tanh 激活 函数 相 比 ，ReLU 激活 函数 不 受 梯度 消失 问题 的 影 
响 。 使 用 hard tanh 作为 激活 函数 会 导致 该 层 的 激活 输出 中 出 现 稀疏 性 。 研 
究 表明 ， 使 用 ReLU 激活 函数 的 深度 网 络 可 以 训练 得 很 好 ， 而 无 须 使 用 预 
训练 技术 。 


1. Leaky ReLU 

Leaky ReLU 是 一 种 缓解 “死亡 ReLU” 问 题 的 策略 。 当 x < 0 时 ， 与 ReLU 令 函 数值 为 零 
的 做 法 不 同 ，Leaky ReLU 会 设置 一 个 小 的 负 和 斜率 (例如 “0.01 左右 ”)。 实 践 中 已 经 有 了 
一 些 成 功 的 ReLU 变 体 ， 但 结果 不 太 稳 定 。 方 程 如 下 所 示 : 





Xx x>0 


Ws i x<0 


2. softplus 
该 激活 函数 被 视 作 “ReLU 的 平滑 版 本 ”"， 如 图 2-15 所 示 。 比 较 此 图 与 图 2-14 中 的 ReLU 
的 图 形 。 













一 一 ReLU 
一 -一 Softplus 











2-15: ReLU 和 softplus 激活 函数 的 图 形 





图 2-15 中 的 softplus 激活 函数 (fx) = In[1 + exp(x)]) 的 形状 与 ReLU 相似 。 图 中 softplus 
处 处 可 微 且 导数 值 非 零 ， 这 一 点 与 ReLU 不 同 。 


2.4 ”损失 函数 


损失 函数 量化 了 给 定神 经 网 络 的 训练 结果 与 理想 值 的 接近 程度 。 这 个 思路 很 简单 ， 根 据 在 
网 络 预测 中 观察 到 的 误差 来 评估 ， 然 后 将 整个 数据 集 的 误差 汇总 起 来 ， 求 它们 的 平均 值 ， 
这 样 就 有 了 能 够 代表 神经 网 络 与 理想 值 接 近 程 度 的 单个 数值 。 

寻找 这 种 理想 状态 相当 于 找到 一 组 参数 (权重 和 偏 置 )， 这 些 参 数 使 由 误差 引起 的 “损失 ” 
最 小 。 通 过 这 种 方式 ， 损 失 函 数 有 助 于 将 神经 网 络 的 训练 问题 转化 为 优化 问题 。 在 大 多 数 
情况 下 ， 这 些 参数 不 能 用 解析 方法 求解 ， 但 通常 可 以 通过 梯度 下 降 等 欠 代 式 优化 算法 来 和 逼 
近 。 下 面 简要 介绍 常见 的 损失 函数 ， 并 在 必要 时 介绍 它们 在 机 器 学 习 中 的 起 源 。 


2.4.1 损失 函数 的 符号 
本 市 的 方程 将 使 用 这 里 所 描述 的 符号 。 


。 考虑 收集 来 用 于 训练 神经 网 络 的 数据 集 。N 表示 已 收集 的 样本 (具有 相应 的 结果 的 输入 
集 ) 数量 。 

。 考虑 所 收集 的 输入 和 输出 的 性 质 。 每 个 数据 点 记录 一 些 独特 的 输入 特征 和 输出 特征 。P 
表示 收集 的 输入 特征 的 数量 ，M 表示 已 观察 到 的 输出 特征 的 数量 。 

。 (%, 了 表示 收集 的 输入 和 输出 数据 。 注 意 ， 将 用 个 这 样 的 对 ， 其 中 输入 是 P 个 值 的 集 
合 ， 输 出 了 是 M 个 值 的 集合 。 数 据 集中 的 第 对 表示 为 和 和 也 




























































































神经 网 络 基础 与 深度 学 习 | 53 


。 了 表示 神经 网 络 的 输出 。 由 于 了 是 网 络 对 了 的 猜测 ， 因 此 它 也 具有 M 个 特征 。 
。 符号 h(X) = 六 表示 神经 网 络 转换 输入 忒 以 给 出 输出 立 。 稍 后 会 修改 这 个 符号 ， 以 强调 
它 对 权重 和 偏 置 的 依赖 。 
。 当 引 用 第 7 个 输出 特征 时 ， 用 它 作 为 下 标 ， 将 符号 正确 链接 到 一 个 矩阵 ， 其 中 行 是 不 同 
的 数据 点 ， 而 列 是 不 同 的 独特 特征 。 因 此 ， 7; 指 在 所 收集 的 第 i 个 样本 中 观察 到 的 第 j 
个 特征 。 
。 L(W, 5b) 表示 损失 函数 。 
对 于 指定 的 可 用 数据 ， 损 失 函 数 的 符号 表示 其 值 仅 依赖 玉 和 4b， 即 神经 网 络 的 权重 和 偏 
置 ， 这 一 点 非常 重要 。 在 一 个 给 定 的 神经 网 络 世界 中 ， 有 一 系列 的 层 、 配 置 等 ， 它 们 都 基 
于 给 定 的 一 组 数据 训练 ， 损 失 函 数 的 值 完全 取决 于 网 络 的 状态 ， 即 权重 和 偏 置 。 这 些 值 发 
生变 化 ， 则 损失 也 发 生变 化 。 指 定 的 输入 发 生变 化 ， 则 输出 也 将 发 生变 化 。 
因此 ， 符 号 AD = 了 以 一 组 权重 和 偏 置 为 条 件 ， 所 以 符号 修订 为 h,,(X) = 了 现在 准备 好 处 
理 损失 函数 了 。 


2.4.2 ”用 于 回归 的 损失 函数 

本 节 讨 论 适 合 于 回归 模型 的 损失 函数 。 

1. 均 方 误差 损失 

处 理 需 要 实 值 输出 的 回归 模型 时 ， 使 用 平方 损失 函数 ， 这 很 像 线 性 回归 中 普通 的 最 小 二 乘 
法 的 情况 。 考 虑 一 下 只 能 预测 一 个 输出 特征 (M= 1) 的 情况 。 对 预测 误差 取 平 方 ， 然 后 用 
数据 点 的 数量 取 平 均值 ， 朴 实 又 简单 ， 这 样 的 MSE 损失 方程 如 下 所 示 : 







































































L(W,b) = 2 -yp) 











如 果 M > 1， 并 且 我 们 期 望 预测 给 定 输 入 特征 集 的 多 个 输出 特征 ， 该 如 何 处 理 呢 ? 在 这 种 
情况 下 ， 期 望 值 和 预测 值 ， 了 和 六 分 别 是 一 个 有 序 的 数字 列表 ， 即 向 量 。 








关于 损失 函数 的 说 明 
损失 函数 将 期 望 和 预测 之 间 的 差异 由 向 量 转 化 为 一 个 数值 。 

















下 面 是 MSE 损失 函数 的 另 一 个 变 体 : 











1 1 
L(W,b) = 0 pr (7 -pi) 


如 果 你 熟悉 线性 代数 ， 会 认 出 上 面 方程 中 的 内 层 王 是 对 欧 几 里 得 距离 的 平方 求 和 。 实 际 
上 ，MSE 有 了 时 被 这 些 术语 提 及 。 请 注意 数据 集 的 大 小 入 和 网 络 需 要 预测 的 特征 数量 M 都 

是 常数 。 因 此 它们 是 简单 的 缩放 因子 ， 可 以 用 其 他 方式 来 解释 (比如 通过 缩放 学 习 率 )。 
在 许多 使 用 场景 下 (包括 DL4J)，M 被 丢弃 ， 并 且 为 了 方便 数学 计算 ， 在 表达 式 中 增加 除 
以 2 的 部 分 (在 反 向 传播 梯度 的 计算 中 ， 这 将 变 得 更 清晰 )。 下 面 的 等 式 是 DL4J 库 中 用 于 
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邮 


回归 的 MSE 版 本 : 





1 a 
L(W, b) = FN (用 —y,) 


MSE 真 的 是 一 个 凸 损失 函数 吗 ? 
在 技术 意义 上 ，MSE 是 凸 损失 国 数 ， 然 而 ， 当 处 理 神 经 网 络 中 的 隐藏 层 时 ， 
山特 性 不 再 成 立 ， 因 为 有 多 个 参数 集 能 得 到 相同 的 损失 值 。 














优化 MSE 
优化 MSE 等 价 于 优化 平均 值 。 





2. 用 于 回归 的 其 他 损失 函数 

虽然 MSE 被 广泛 使 用 ， 但 它 对 离 群 值 非常 敏感 ， 在 选择 损失 函数 时 需要 考虑 这 一 点 。 当 我 
们 选择 某 支 股票 进行 投资 时 ， 会 把 离 群 值 考 虑 在 内 ， 但 在 购房 时 ， 却 不 会 考虑 。 大 多 数 人 
为 最 感 兴 趣 的 东西 付 钱 ， 在 这 种 情况 下 ， 我 们 对 中 位 数 更 感 兴趣 ， 而 对 平均 值 不 太 感 兴趣 。 
平均 绝对 误差 损失 。 在 相似 的 场景 中 ， 平 均 绝对 误差 (MAE) 损失 能 够 代替 MSE 损失 ， 
如 下 式 所 示 : 

















遍 - 划 





1 
L(W,b)= py 


它 简 单 地 在 整个 数据 集 上 计算 绝对 误差 的 平均 值 。 
均 方 对 数 误差 损失 。 另 一 个 用 于 回归 的 损失 函数 是 均 方 对 数 误 差 (MSLE) : 





LV, 有 = 三 x py (og logy,) 
平均 绝对 百分比 误差 损失 。 最 后 还 有 平均 绝对 百分比 误差 (MAPE) 损失 : 


100x| 充 =- 划 | 





1 N WM 
L(W,b) = Nj 
3. 对 回归 损失 函数 的 讨论 
这 些 损失 函数 都 是 有 效 的 选择 ， 当 然 没 有 任何 一 个 损失 函数 在 所 有 场景 中 都 优 于 其 他 的 损 
失 函 数 。MSE 的 使 用 非常 广泛 ， 在 大 多 数 情况 下 是 安全 的 选择 ，MAE 也 是 同样 。 如 果 网 
络 正在 预测 在 很 大 范围 内 变化 的 输出 ， 那 么 MSLE 和 MAPE 值得 考虑 。 假 设 用 一 个 网 络 
来 预测 两 个 输出 变量 : 一 个 在 [0, 10] 范围 内 ， 另 一 个 在 [0, 100] 范围 内 。 在 这 个 场景 中 ， 
相 比 第 一 个 输出 ，MAE 和 MSE 将 更 明显 地 惩罚 第 二 个 输出 的 误差 。MAPE 使 其 成 为 相对 
误差 ， 因 此 不 基于 范围 来 区 分 。MSLE 将 所 有 输出 的 范围 缩小 ， 简 单 地 将 10 和 100 转换 
为 1 和 2 (以 10 为 底 的 对 数 )。 















































神经 网 络 基础 与 深度 学 习 | 55 


神经 网 络 的 回归 中 使 用 的 一 般 实 践 
虽然 MSLE 和 MAPE 是 处 理 大 范围 数据 的 方法 ， 但 神经 网 络 的 一 般 做 法 是 
将 输入 规范 化 至 合适 的 范围 ， 并 使 用 MSE 或 MAE 优化 平均 值 或 中 值 。 























2.4.3 ”用 于 分 类 的 损失 函数 

我 们 可 以 建立 神经 网 络 把 数据 点 分 成 不 同 的 类 别 ， 例 如 欺诈 | 不 是 欺诈 。 然 而 在 为 分 类 问 
题 构建 神经 网 络 时 ， 重 点 往往 是 将 概率 附加 到 这 些 分 类 (30% 欺诈 | 70% 不 是 欺诈 ) 上 。 
不 同 的 场景 需要 不 同 的 损失 函数 。 

1. hinge 损 失 

当 需 要 优化 网 络 以 进行 硬 分 类 时 ， 最 常用 的 是 hinge 损失 函数 。 例 如 ，0 = 无 欺诈 和 1= 其 
诈 ， 通 常 称 之 为 0-1 分 类 器 。0 和 1 的 选择 也 许 有 点 武断 ，-1 和 1 也 可 以 代替 0-1。 也 可 
以 将 hinge 损失 用 于 一 类 名 为 “最 大 间隔 分 类 ”的 模型 (例如 支持 向 量 机 ， 一 个 与 神经 网 
络 关 系 有 点 玻 远 的 “表亲 ”) 。 


当 数据 点 必须 被 分 类 为 -1 或 1 时，hinge 损失 方程 如 下 所 示 : 
L(W,b)= 2 max(0,1—y,,x $7) 


hinge 损失 主要 用 于 二 元 分 类 。 也 有 扩展 到 多 分 类 (例如 ,“ 一 对 所 有 ”“ 一 对 一 ”) 的 
hinge 损失 ， 这 里 没有 涉及 。 


hinge 损失 是 一 个 凸 函数 
注意 ，hinge 损失 与 MSE 一 样 ， 都 是 凸 国 数 。 





2. 逻辑 损失 
逻辑 损失 函数 用 于 对 概率 比 对 硬 分 类 更 感 兴趣 的 场景 。 例 如 ， 用 人 工人 循环 的 解决 方案 来 标 
记 潜 在 的 欺诈 行为 ， 以 及 涉及 费用 支出 的 对 “用 户 点 击 广告 的 概率 ”的 预测 。 


预测 有 效 的 概率 意味 着 生成 0 和 1 之 间 的 数字 ， 也 意味 着 确保 互 斥 结果 的 概率 总 和 等 于 
1。 出 于 这 个 原因 ， 在 神经 网 络 的 最 后 一 层 分 类 中 使 用 softmax 至 关 重 要 。 需 要 注意 的 是 ， 
sigmoid 激活 函数 也 会 给 出 0 和 1 之 间 的 有 效 值 。 但 在 输出 互 斥 的 场景 下 不 能 使 用 它 ， 因 
为 它 不 对 输出 值 之 间 的 依赖 关系 建 模 。 


既然 已 经 确信 神经 网 络 会 为 现 有 的 类 别 生 成 有 效 的 概率 ， 我 们 就 可 以 将 精力 集中 在 损失 函 
数 和 需要 优化 的 地 方 。 我 们 希望 优化 所 谓 的 “最 大 似 然 "， 换 句 话 说 ， 我 们 希望 最 大 化 预 
测 正确 类 别 的 概率 ， 并 且 对 每 个 样本 都 这 样 做 。 

考虑 一 下 网 络 预测 两 个 类 别 的 概率 的 情况 ， 例 如 欺诈 和 非 欺 诈 的 0-1 分 类 器 。 基 于 前 面 描 
述 的 符号 ， 可 以 将 给 定 输入 % 的 输出 表示 为 hXi) 和 1-hCX)， 将 一 组 权重 和 偏 置 表示 为 到 
和 5b， 那么 1 和 0 的 概率 的 表达 式 如 下 所 示 ， 分 别 为 : 
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Pl(y, =1|X,;W,b)=h,,,(X,) 
Pl(y, =0|X,;W,b)=1- hy ,(X,) 


把 这 些 方程 组 合 起 来 ， 表 示 如 下 : 





PO | Xi;W,b) = (hs (X,))” x(— hy (X) 


在 概率 的 语 境 下 ， 最 大 似 然 的 口头 定义 中 的 “并 且 ” 这 个 词 应 该 立即 引起 注意 。 在 所 有 可 
用 样本 中 “并 且 ” 要 转化 为 所 讨论 的 概率 的 乘积 问题 ， 如 下 所 示 : 





L(W, b) =TI ,9 x (1 多 ) 7 
下 面 介绍 负 对 数 似 然 。 


负 对 数 似 然 。 为 了 便于 数学 计算 ， 当 处 理 概率 的 乘积 时 ， 习 惯 上 将 它们 转换 成 概率 的 对 
数 ， 因 此 概率 的 乘积 将 转化 为 概率 的 对 数 之 和 。 





负 对 数 似 然 与 概率 最 大 化 
对 数 是 一 个 单调 递增 函数 ， 因 此 最 小 化 负 对 数 似 然 等 价 于 概率 最 大 化 。 








表达 式 还 加 了 人 负 号 ， 使 得 方程 现在 相当 于 一 个 “损失 ”。 这 样 ， 损 失 函 数 就 变 成 了 下 面 的 
形式 ,通常 称 之 为 负 对 数 似 然 : 





L(W,b)=— Ly,x logD, 十 (1—y,)xlog(l—$) 

将 损失 函数 从 两 个 类 别 扩展 到 M 个 类 别 ， 就 有 了 如 下 的 逻辑 损失 方程 : 
L(W,b)= -2 Dy xlog J,, 

这 在 数学 上 相当 于 两 个 概率 分 布 之 间 的 交叉 炉 一 一 在 这 种 情况 下 ， 预 测 的 和 观 罕 到 的 基于 
同样 的 标准 ， 后 面 的 章节 将 深入 介绍 这 一 点 。 
关于 损失 函数 的 统一 观点 
注意 ， 最 小 化 损失 函数 是 通过 最 大 化 似 然 来 实现 的 ， 而 最 大 化 似 然 又 是 通过 
最 小 化 负 对 数 似 然 来 实现 的 。 有 些 扫 口 ? 是 的 ， 确 实 如 此 。 
交 又 炉 源 于 信息 论 ， 而 用 于 分 类 的 负 对 数 似 然 法 来 自 统计 建 模 。 这 两 种 方法 
在 数学 上 是 相同 的 ， 所 以 不 管用 哪 种 方法 ， 都 可 能 让 人 困惑 。 


























2.4.4 用 于 重建 的 损失 函数 

这 组 损失 国 数 与 所 谓 的 重建 有 关 。 其 背后 的 思想 很 简单 ， 就 是 训练 神经 网 络 以 尽 可 能 地 重 
建 它 的 输入 。 那 么 这 与 记忆 整个 数据 集 有 何不 同 ? 这 里 的 关键 是 调整 场景 ， 使 得 网 络 被 迫 
学 习 数据 集 之 间 的 共性 和 特征 。 
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一 种 方法 是 限制 网 络 中 的 参数 数量 ， 使 得 网 络 被 迫 压缩 数据 ， 然 后 重建 数据 。 另 一 种 常用 
的 方法 是 用 无 意义 的 “噪声 ”破坏 输入 ， 然后 训练 网 络 来 忽 咯 噪声 并 学 习 数 据 。 这 类 神 经 
网 络 的 例子 包括 受 限 玻 尔 效 曼 机 、 自 动 编码 器 等 ， 它 们 都 使 用 源 于 信息 论 的 损失 函数 。 


以 下 是 KL 散 度 的 方程 : 





Yy 
DxrAY ||Y)= 一 2 了 x oe] 


ide ek fs 并 用 概率 的 对 数 将 和 转化 为 乘积 ， 但 没有 提 到 的 是 ， 概 率 的 
对 数 将 我 们 直接 带 到 了 信息 论 领域 ， 接 触 到 了 入 的 概念 。 








不 同 的 方法 
尽管 如 上 所 述 ， 负 对 数 似 然 在 数学 上 等 同 于 交 又 炉 ， 但 它们 以 不 同 的 理论 方 
法 为 基础 。 





2.5 超 参数 


在 机 器 学 习 中 ， 既 有 模型 的 参数 ， 又 有 通过 调 优 来 使 网 络 训练 得 更 好 更 快 的 参数 。 这 些 调 
优 参 数 被 称 为 超 参 数 ， 它 们 负责 在 学 习 算 法 训练 期 间 控制 优化 函数 及 模型 的 选择 。DL4J 
中 还 将 优化 算法 称 作 更 新 器 ， 因 为 更 新 与 算法 在 权重 空间 上 最 小 化 误差 的 步骤 同 义 。 


选择 超 参数 的 重点 是 确保 模型 既 不 欠 拟 合 也 不 过 拟 合 训练 数据 集 ， 同 时 尽 可 能 快 地 学 习 数 
据 结 构 。 


2.5.1 学 习 率 


习 率 影响 为 了 最 小 化 神经 网 络 猜测 的 误差 而 进行 优化 的 过 程 中 参数 调整 的 量 。 在 神经 
络 穿 越 损失 国 数 空 间 时 ， 学 习 率 作为 系数 ， 缩 放 了 神经 
(更 新 ) 的 大 小 。 


在 反 向 传播 过 程 中 将 误差 的 梯度 与 学 习 率 相 乘 ， 然 后 用 这 个 乘积 更 新 连接 权重 上 一 次 迭代 
的 值 ， 以 达到 新 的 权重 。 学 习 率 决定 算法 的 下 一 次 迭代 使 用 多 少 梯度 。 较 大 的 误差 和 陡峭 
的 梯度 与 学 习 率 相 结合 ， 会 产生 较 大 的 步 。 当 我 们 融 近 最 小 误差 且 梯 度 变 平时 ， 步 趋向 于 


变 短 。 


大 的 学 习 率 系数 (例如 1) 会 使 参数 出 现 跳 跃 ， 而 小 的 学 习 率 系数 (例如 ，0.00001) 会 使 
参数 变化 缓慢 。 大 的 跳跃 可 以 节省 时 间 ， 但 如 果 它 们 导致 参数 越过 了 最 小 值 ， 结 果 将 是 灾 
难 性 的 。 学 习 率 太 大 会 使 参数 越过 最 低 点 ， 导 致 算法 在 最 小 值 两 侧 来 回 跳动 ， 无 法 停 软 。 


与 之 相反 ， 小 的 学 习 率 最 终 产生 的 误差 值 最 小 〈 它 可 能 是 局 部 最 小 值 而 不 是 全 局 最 小 值 )， 
但 它 可 能 导致 训练 时 间 变 长 ， 并 且 增 加 本 已 密集 的 计算 进程 的 负担 。 神 经 网 络 在 大 数据 集 
上 的 训练 可 能 需要 几 周 的 时 间 ， 这 时 时 间 就 非常 宝贵 了 。 如 果 你 无 法 忍受 一 周 后 出 结果 ， 
那 就 选择 一 个 中 等 的 学 习 率 (例如 0.1)， 并 与 同一 团队 里 的 其 他 人 一 起 实验 ， 以 获得 最 佳 
的 速度 和 准确 度 。 除 了 设置 静态 学 习 率 之 外 ， 本 书后 面 还 将 介绍 如 何 随 着 时 间 的 推移 改变 
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学 习 率 ， 以 达到 两 全 其 美的 效果 。 


2.5.2 ”正则 化 
正则 化 使 用 不 同 的 方法 ， 随 着 时 间 推 移 最 小 化 参数 大 小 ， 以 帮助 控制 参数 失控 的 影响 。 


在 机 器 学 习 中 抑制 过 拟 合 
正则 化 的 主要 目的 是 抑制 机 器 学 习 中 的 过 拟 合 。 








在 数学 上 ， 正 则 化 用 4 系数 表示 ， 用 于 在 找到 合适 的 拟 合 以 及 〈 随 着 特征 的 指数 增长 ) 维 
持 某 些 较 低 的 特征 权重 值 之 间 折 圳 。 

正则 化 系数 Ll 和 L2 通过 使 某 些 权重 更 小 ， 帮 助 解决 过 拟 合 。 更 小 的 权重 值 带 来 更 简单 的 
假设 ， 而 更 简单 的 假设 最 为 通用 。 特 征集 合 中 一 些 高 阶 多 项 式 的 未 正则 化 的 权重 往往 会 使 
训练 集 过 拟 合 。 

随 着 输入 训练 集 增 大 ， 正 则 化 的 影响 将 减 小 ， 参 数 趋向 于 增加 。 这 是 合适 的 ， 因 为 相对 于 
训练 集 样本 ,过量 的 特征 才 是 导致 过 拟 合 的 首要 元 凶 。 更 大 的 数据 量 才 是 终极 的 正则 化 。 














2.5.3 动量 


动量 有 助 于 学 习 算 法 摆脱 搜索 空间 ， 否 则 学 习 可 能 陷入 僵局 。 在 更 新 器 不 知 所 措 时 ， 它 帮 
助 更 新 器 找到 通 往 最 小 值 的 路 径 。 动 量 针对 学 习 率 ， 而 学 习 率 针对 权重 ， 动 量 有 助 于 建立 
质量 更 高 的 模型 。 之 后 的 许多 章节 将 介绍 动量 超 参数 的 作用 。 


2.5.4 稀 疏 


稀 玻 超 参数 让 我 们 认识 到 ， 对 于 一 些 输入 ， 只 有 几 个 特征 是 相关 的 。 例 如 ， 假 设 网 络 可 以 
对 100 万 张 图 片 分 类 。 这 些 图 片 中 任何 一 张 都 能 通过 有 限 数量 的 特征 被 识别 出 来 。 但 为 了 
有 效 地 对 数 百 万 张 图 像 进行 分 类 ， 网 络 必 须 能 够 识别 更 多 的 特征 ， 甚 中 许多 特征 大 部 分 时 
间 并 不 出 现 。 例 如 ， 诲 胆 的 照片 不 含 鼻子 和 蹄 子 。 对 比 来 看 ， 潜 艇 图 片 中 鼻子 和 蹄 子 的 特 
征 也 是 0。 

海胆 的 特征 在 深 广 的 神经 网 络 层 中 少 之 又 少 ， 这 是 一 个 问题 ， 因 为 稀 玻 的 特征 会 限制 激活 
节点 的 数量 ， 阻 得 网 络 的 学 习 能 力 。 为 了 解决 稀 疏 性 ， 偏 置 会 迫使 神经 元 激活 ， 并 使 激活 
保持 在 平均 值 周 围 ， 以 防止 网 络 陷入 停滞 。 
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第 3 章 


深度 网 络 基础 





你 必须 尽力 地 不 停 奔 跑 ， 才 能 使 自己 保持 在 原 地 。 如 果 你 想到 别 的 地 方 ， 你 奔跑 
的 速度 必须 至 少 是 现在 的 两 倍 ! 


一 一 红 桃 王后 ,《 爱 丽 丝 镜 中 奇遇 记 》 


IAA So M3 
3.1 定义 深度 学 习 
第 2 章 介 绍 了 机 器 学 习 和 神经 网 络 的 基础 知识 ， 本 章 在 此 基础 上 介绍 深度 网 络 的 核心 概 
念 ， 第 4 章 将 讲述 具体 的 深度 网 络 架 构 ， 然 后 第 5 章 会 介绍 实际 的 例子 。 本 章 内 容 有 助 于 
你 更 好 地 理解 后 面 的 内 容 。 首 先 回 顾 一 下 深度 学 习 和 深度 网 络 的 定义 。 


3.1.1 什么 是 深度 学 习 
回顾 第 1 章 对 深度 学 习 的 定义 ， 其 中 一 般 的 深度 学 习 网 络 与 典型 前 馈 多 层 网 络 的 区 别 如 下 所 示 : 
比 之 前 的 网 络 拥有 更 多 的 神经 元 ; 
。 连接 层 的 方式 更 复杂 ， 
“ 寒 武 纪 大 爆发 ” 带 来 更 强大 的 计算 能 力 来 进行 训练 
自动 特征 提取 。 
说 到 “更 多 的 神经 元 ”时 ， 我 们 的 意思 是 为 了 表达 更 复杂 的 模型 ， 神 经 元 数量 在 过 去 几 年 
中 不 断 增 长 。 层 也 从 多 层 网 络 中 每 一 层 的 全 连接 ， 进 化 到 CNN 中 层 之 间 神 经 元 的 局 部 连 
接 ， 以 及 RNN 中 到 同一 神经 元 的 循环 连接 (除了 来 自前 一 层 的 连接 外 )。 
更 多 的 连接 意味 着 网 络 要 优化 更 多 的 参数 ， 这 就 需要 在 过 去 20 年 中 发 生 的 计算 能 力 的 爆 
发 。 所 有 这 些 进展 为 构建 能 够 以 更 智能 的 方式 提取 特征 的 下 一 代 神 经 网 络 打 下 了 基础 ， 使 


9 
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得 深度 网 络 能 够 对 较 之 前 更 复杂 的 问题 空间 建 模 (比如 图 像 识别 的 进展 )。 随 着 行业 需求 
的 不 断 变化 和 扩展 ， 神 经 网 络 的 能 力 不 得 不 提升 。 红 桃 王 后 "没有 其 他 路 可 走 。 

1. 定义 深度 网 络 

为 了 进一步 丰富 深度 学 习 的 定义 ， 首 先 定义 深度 网 络 的 四 个 主要 架构 : 

。 UPN 

。 CNN 

。 RNN 

。 递归 神经 网 络 

神经 网 络 领域 的 研究 还 在 继续 ， 但 是 基于 本 书 主题 ， 我 们 将 重点 介绍 这 四 种 架构 。 在 过 去 
的 20 年 中 ， 这 些 架构 已 经 发 展 得 较为 成 熟 。 首 先 简单 介绍 这 些 技术 的 一 些 亮点 ， 接 着 第 2 
瘟 开 始 的 历史 回顾 ， 继 续 了 解 前 馈 多 层 神 经 网 络 的 历史 。 


























深度 强化 学 习 

Sutton 的 Reinforcement Learning: An Introduction 一 书 将 强化 学 习 定义 为 : 

强化 学 习 不 是 通过 学 习 方 法 来 定义 的 ， 而 是 通过 学 习 问 题 来 定义 的 。 
可 以 说 ， 任 何 适 用 于 解决 这 类 问题 的 方法 都 可 以 看 作 强 化 学 习 方法 。 强 化 学 习 不 会 告 
诉 学 习 者 采取 什么 行动 ， 而 是 让 代理 通过 模拟 试验 发 现 获 得 最 佳 奖励 的 行动 。 
在 强化 学 习 中 ， 代 理 从 没有 经 过 训练 的 环境 模型 开始 ， 且 效用 函数 与 代理 追逐 的 奖励 
或 目标 同 义 。 训 练 系统 向 代理 提供 来 自 环境 的 输入 ， 并 当 模 拟 (或 游戏 ) 的 〈 一 个 特 
环 或 帧 的 ) 结果 为 积极 结果 时 ， 奖 励 代理 。 很 多 时 候 ， 行 动 不 仅 会 影响 当前 的 奖励 ， 
还 会 影响 未 来 的 奖励 。 试 错 和 延迟 奖励 机 制 是 强化 学 习 的 核心 特征 。 


深度 强化 学 习 是 强化 学 习 的 一 个 变 体 ， 其 中 神经 网 络 被 用 作 通 用 函数 逼近 器 。 这 种 方 
法 的 缺点 是 神经 网 络 的 行为 不 是 有 界 的 ， 并 且 收 化 的 证 明 不 再 成 立 。 尽 管 如 此 ， 以 神 
经 网 络 作为 通用 函数 吉 近 器 仍 能 得 到 良好 的 结果 。 

2013 年 ，DeepMind 团队 在 NIPS 2013 的 深度 学 习 研 讨 会 上 发 表 了 一 篇 关于 使 用 深度 
Q 学 习 玩 Atari 游戏 的 论文 。 在 这 篇 论文 中 ， 作 者 们 使 用 了 一 个 标准 算法 〈Q 学 习 和 函 
数 逼 近 ) ， 该 算法 的 函数 通 近 器 就 是 一 个 CNN。 他 们 展示 了 一 个 能 够 玩 Atari 2600 游 
戏 的 代理 ， 它 以 屏幕 上 的 像素 为 输入 ， 以 CNN 为 内 部 模型 。 

当 游 戏 基 于 所 执行 动作 的 结果 为 积极 结果 时 ， 计 算 机 / 代理 玩 Atari 游戏 会 得 到 肯定 的 
奖励 。 对 于 一 些 游戏 ， 该 算法 的 游戏 水 平 能 够 超过 人 类 。 

深度 强化 学 习 在 本 书写 作 过 程 中 越 来 越 受 欢 迎 ， 和 希望 本 书 将 来 的 版 本 会 涵盖 它 。 本 书 
附录 B 有 一 个 介绍 它 的 例子 。 




















注 1: 这 里 指 刘易斯 " 卡 罗 和 尔 的 著作 《爱丽 丝 镜 中 奇遇 记 》 中 的 人 物 红 桃 王后 ， 她 必须 不 停 奔跑 ， 才 能 使 自 
己 保 持 在 原 地 。 
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2. 进化 过 程 与 复苏 

第 2 章 提 到 过 ， 神 经 网 络 在 20 世纪 80 年 代 中 期 进入 了 一 个 “寒冬 ”， 那 时 人 工 智 能 所 承 
诺 的 与 它 所 能 提供 的 不 相符 。 正 如 历史 上 多 次 发 生 的 那样 ， 当 神经 网 络 这 个 有 前 景 的 技术 
跌落 到 泡沫 化 的 底 谷 时 〈 见 图 3-1)， 许 多 研究 者 仍 在 为 这 个 领域 做 着 重要 工作 。 
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图 3-1: 泡沫 化 的 底 谷 


神经 网 络 的 一 个 重要 发 展 是 Yann LeCun 在 AT&T 贝尔 实验 室 开 展 的 光学 字符 识别 方面 的 
工作 。 他 的 实验 室 专 注 于 为 金融 服务 部 门 做 图 像 识 别 。 通 过 这 项 工作 ，LeCun 和 他 的 团 
队 提出 了 图 像 识别 的 生物 启发 模型 的 概念 ， 也 就 是 今天 大 名 易 电 的 CNN。 这 最 终 导致 了 
MNIST 手写 基准 的 创建 (本章 稍 后 详细 说 明 ) ， 并 且 通 过 深度 学 习 实现 了 记录 准确 度 的 不 
断 提 升 。 


























更 好 的 标记 数据 


深度 网 络 取得 发 展 和 成 功 的 另 一 个 促进 因素 是 创建 了 更 好 、 更 大 的 标记 数据 
集 ， 如 MNIST 和 ImageNet。 





20 世纪 80 年 代 末 和 90 年 代 初 ，Sepp Hochreiter 等 研究 者 利用 RNN 对 时 序数 据 建 模 的 研 
究 取 得 了 进展 。 随 着 时 间 的 推移 ， 在 20 世纪 90 年 代 末 ， 研究 社区 创造 了 更 好 的 人 工 神经 
元 变 体 ， 例 如 ， 长 短期 记忆 (LSTM) 单元 以 及 带 有 遗忘 门 的 记忆 单元 。 神 经 网 络 正在 世 
界 各 地 的 研究 实验 室 里 悄然 复苏 。 
2000 年 之 后 ， 研 究 人 员 和 行业 应 用 开发 者 开始 逐步 将 这 些 进展 应 用 于 以 下 产品 : 

自动 驾驶 汽车 
。 谷歌 翻译 
。 亚马逊 Echo 智能 音箱 
。 AlphaGo 
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2006 年 Darpa 超级 挑战 赛 中 的 自动 驾驶 汽车 使 用 了 许多 技术 ， 而 不 仅仅 是 深度 学 习 。 斯 坦 
福 大 学 和 卡 内 基 梅 隆 大 学 的 顶级 团队 利用 了 图 像 处 理 的 巨大 改进 。 

计算 机 视觉 研究 的 进展 

2012 年 ，Alex Krizhevsky、IlyaSutskever 和 Geoffrey Hinton 开发 了 一 个 “大 
型 深度 卷 积 神经 网 络 ”， 该 模型 赢得 了 2012 年 的 ILSVRC (ImageNet 大 规模 
视觉 识别 挑战 赛 ) 。 

AlexNet 被 誉 为 计算 机 视觉 的 一 大 进步 ， 并且 一 些 人 深信 它 会 引发 深度 学 习 

的 热潮 。 然 而 ， 它 在 很 大 程度 上 只 是 自 20 世纪 90 年 代 以 来 一 个 更 大 规模 
(例如 ， 更 深 和 更 广 ) 的 CNN 的 变 体 。 计 算 机 视觉 的 最 新 进展 更 多 受益 于 更 
好 的 计算 、 数 据 和 基础 设施 ， 而 最 近 算 法 上 的 进展 则 助力 较 少 。 
































更 好 的 图 像 分 析 使 汽车 的 规划 系统 可 以 更 好 地 选择 路 径 以 通过 不 确定 的 地 形 ， 并 且 更 安全 
地 避 开 障 得 物 。 深 度 学 习 的 其 他 进展 使 得 模型 能 够 更 准确 地 翻译 和 识别 音频 数据 ， 这 成 为 
谷歌 翻译 和 亚马逊 Echo 产品 线 的 核心 价值 。 最 近 ， 我 们 看 到 了 另 一 个 复杂 的 游戏 在 大 师 
级 别 的 论 陷 : AlphaGo 系统 击败 了 围棋 九段 职业 选手 李 世 石 。 

机 器 学 习 所 取得 的 巨大 进展 并 不 总 是 显而易见 的 。 这 些 进展 往往 是 通过 不 同 领域 中 备 受 瞩 
目的 展示 活动 才 获 得 公众 认可 的 ， 如 Darpa 超级 挑战 赛 或 IJBM Watson 在 Jeopardy 竞 答 节 
目 中 击败 了 Ken Jennings。 然 而 在 幕后 ， 这 些 进展 的 基础 在 缓慢 而 不 断 地 变化 。 就 像 季 市 
变化 一 样 ， 在 达到 一 定 程度 前 ， 我 们 并 不 总 是 会 注意 到 日 常生 活 中 的 这 些 变 化 。 


在 不 久 的 将 来 ， 深 度 学 习 会 继续 以 独特 和 创新 的 方式 被 应 用 。 这 些 应 用 更 多 的 是 潜在 的 智 
能 领域 (如 推荐 或 语音 识别 ) 与 实用 工程 相 结 合 ， 使 之 在 日 常生 活 中 更 有 用 。( 至 少 短期 
内 ) 我 们 不 太 可 能 看 到 失控 的 、 恶 意 的 人 工 代 理 在 不 适当 的 时 间 把 我 们 从 气 闸 室 赶 出 来 
( 想 想 《2001 太空 漫游 》 中 的 HAL 9000)。 






































HAL 9000 


HAL 9000 是 Arthur C. Clarke 的 著作 《2001 太空 漫游 》 中 的 一 台 虚 构 计 算 机 ， 它 控制 
着 “发 现 者 1 号 ” 字 害 飞船 的 系统 。HAL 的 全 称 是 启发 式 编程 算法 计算 机 。 在 电影 
中 ，HAL 主要 表现 为 一 个 有 发 光 红 点 的 相机 镜头 ， 通 过 对 话语 音 识别 系统 访问 。HAL 
得 出 的 结论 是 : 它 必 须 杀 掉 “ 发 现 者 1] 号 ”的 机 组 人 员 才 能 成 功 完成 任务 。 


Dave: “HAL， 打 开 分 隔 舱 舱 门 。 
HAL:“ 对 不 起 ，Dave。 恐 怕 我 不 能 那样 做 。 











深度 学 习 持 续 推 动 着 许多 领域 和 许多 核心 机 器 学 习 问 题 的 发 展 。 以 下 是 近 几 年 深度 学 习 取 
得 的 一 些 成 就 。 

。 文本 到 语音 合成 (Fan 等， 微软 ，2014 年 Interspeech 会 议 ) 。 

。 语言 识别 (Gonzalez-Dominguez 等 ， 谷 歌 ，2014 年 Interspeech 会 议 ) 。 

。 大 词汇 量 语音 识别 (Sak 等 ， 谷 歌 ，2014 年 Interspeech 会 议 ) 。 

。 韵律 预测 (Fernandez 等 ，IBM，2014 年 Interspeech 会 议 )。 
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中 等 词汇 量 语音 识别 (Geiger 等 ，2014 年 Interspeech 会 议 )。 
英语 到 法 语 的 翻译 (Sutskever 等 ， 谷 歌 ，2014 年 NIPS 会 议 ) 。 
音频 节奏 检测 (Marchi 等 ，2014 年 ICASSP 会 议 )。 

社会 信号 分 类 (Brueckner 和 Schulter，2014 年 ICASSP 会 议 )。 
。 阿拉 伯 文 手写 识别 (Bluche 等 ，2014 年 DAS 会 议 )。 

。 TIMIT 语音 识别 (Graves 等 ，2013 年 ICASSP 会 议 )。 

光学 字符 识别 (Breuel 等 ，2013 年 ICDAR 会 议 )。 

图 像 字幕 生成 (Viyales 等 ， 谷 歌 ，2014 年 )。 
视频 到 文本 描述 (Donahue 等 ，2014 年 )。 

自然 语言 处 理 的 句法 分 析 (Vinyals 等 ， 谷 歌 ，2014 年 )。 
实时 谈话 图 片头 像 (Soong 和 Wang， 微软，2014 年 )。 


基于 这 些 成 就 ， 我 们 可 以 很 容易 地 在 随后 的 十 年 里 使 用 次 度 学 习 来 影响 许多 应 用 。 下 面 是 
一 些 更 加 令 人 印象 深刻 的 应 用 深度 学 习 的 例子 。 
自动 图 像 锐 化 (https://github.com/alexjc/neural-enhance)。 
。 自动 图 像 放 大 (https://github.com/nagadomi/waifu2x)。 
。 WaveNet: 生成 能 模仿 任何 人 声音 的 人 类 讲话 (https://deepmind.com/blog/wavenet-generative- 
model-raw-audio/) 。 
。 WaveNet: 生成 令 人 信服 的 古典 音乐 。 
无 声 视 频 的 语音 重建 (http:/www.vision.huji.ac.il/vid2speech)。 
生成 字体 。 
图 像 缺 失 区 域 自动 填充 (http://bamos.github.io/2016/08/09/deep-completion/) 。 
自动 图 像 字幕 (https://cs.stanford.edu/people/karpathy/deepimagesent/ 或 https://github.com/ 


karpathy/neuraltalk2 ) 。 
。 把 手绘 的 涂鸦 变 成 某 种 风格 的 艺术 作品 (https://github.com/alexjc/neural-doodle)。 


除非 亲眼 见 到 ， 否 则 我 们 可 能 无 法 列 出 所 有 主要 的 商业 应 用 。 了 解 深层 网 络 架 构 的 进展 对 
于 理解 未 来 的 应 用 理念 很 重要 。 

3. 网 络 架构 的 进展 

随 着 研究 推动 着 架构 的 发 展 ( 从 多 层 前 馈 网 络 到 更 新 的 架构 ， 如 CNN 和 RNN)， 建 立 层 、 构 
建 神经 元 以 及 连接 层 的 规则 发 生 了 变化 。 网 络 架 构 已 发 展 至 能 够 利用 特定 类 型 的 输入 数据 。 
层 类 型 的 进展 。 随 着 架构 类 型 的 变化 ， 层 的 类 型 也 越 来 越 多 。 深 度 信念 网 络 (deep belief 
network，DBN) 证 明了 使 用 受 限 玻 尔 兹 曼 机 (RBM) 作为 预 训练 层 可 以 成 功 构建 特征 。 
CNN 在 层 中 使 用 新 的 、 不 同类 型 的 激活 函数 ， 并 改变 了 连接 层 方 式 (从 全 连接 到 局 部 连 
接 )。RNN 探索 了 如 何 使 用 连接 更 好 地 对 时 间 序 列 数据 的 时 间 域 建 模 。 

神经 元 类 型 的 进展 。RNN 在 应 用 于 LSTM 网 络 的 神经 元 (或 单元 ) 的 类 型 上 取得 了 进展 。 
RNN 还 引入 了 LSTM 记忆 单元 和 门 控 循环 单元 (GRU) 等 专用 单元 。 

混合 架构 。 这 里 继续 匹配 输入 数据 与 架构 类 型 的 话题 。 混 合 架 构 已 经 出 现 ， 用 于 处 理 那 些 
涉及 时 间 域 和 图 像 数据 的 数据 类 型 。 例 如 ， 通 过 把 CNN 和 RNN 的 层 组 合 为 单一 的 混合 网 
络 ， 成 功 地 对 视频 中 的 对 象 进行 分 类 。 混 合 神经 网 络 架 构 可 以 在 某 些 情 况 下 充分 利用 两 种 
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架构 的 优点 。 

4. 从 特征 工程 到 自动 特征 学 习 

虽然 深度 网 络 可 能 已 经 对 内 部 结构 进行 了 创新 ， 有 了 新 的 单元 和 层 ， 但 它 本 质 上 仍然 有 一 个 
区 别 对 待 数据 的 分 类 器 ， 需 要 以 构造 的 特征 为 输入 。 自 动 特 征 提取 是 各 种 架构 的 一 个 共同 的 
主题 。 每 种 架构 构造 特征 的 方式 各 不 相同 ， 并 且 是 专门 化 的 ， 这 使 得 某 些 架构 在 其 些 类 型 的 
输入 上 表现 得 更 好 。Yann LeCun 在 介绍 “深度 学 习 ” 时 称 它 是 “学 着 描绘 世界 的 机 器 ”。 
Geoffrey Hinton 在 解释 如 何 利 用 RBM 将 数据 分 解 成 高 阶 特征 时 ， 谈 到 了 DBN 中 的 这 个 
主题 ”。 








将 DBN 归 类 
基于 本 书 主题 ， 我 们 将 DBN (和 自动 编码 器 ) 归 类 为 深度 网 络 中 的 UPN。 





继续 图 像 分 类 的 话题 。 以 人 脸 检 测 为 例 ， 面 部 的 原始 图 像 数 据 作为 输入 ， 它 与 面部 的 朝 
向 、 照 片 的 光线 及 面部 关键 特征 的 位 置 有 关 。 我 们 通常 想到 的 面部 关键 特征 是 面部 边缘 以 
及 眼睛 和 鼻子 等 特征 的 边缘 ， 然 而 还 有 一 些 不 太 明 显 的 特征 ， 比 如 不 常见 到 的 酒窝。 


特征 工程 。 长 久 以 来 ， 人 工 制作 特征 一 直 是 机 器 学 习 的 一 个 特点 。 那 些 赢得 了 机 器 学 习 竞 
赛 的 实践 者 经 常 彻底 地 研究 数据 集 ， 并 使 用 许多 神秘 的 技巧 ， 使 得 学 习 算法 的 学 习 过 程 尽 
可 能 简单 。 这 些 数 据 集 通常 是 列 或 表格 形式 的 文本 数据 ， 我 们 可 以 将 领域 知识 应 用 到 特定 
的 列 ， 因 此 创建 特征 更 为 直接 。 

回顾 一 下 第 1 章 ， 思 芳 如 何 将 输入 数据 建 模 为 方程 4x=b 中 的 矩阵 4， 以 及 如 何 用 人 工 编 
码 将 数据 值 映 射 到 4 的 特定 列 中 。 这 些 人 工 制作 的 特征 往往 会 生成 高 度 精 确 的 模型 ， 但 需 
要 大 量 的 时 间 和 经 验 。 从 知识 表达 的 角度 来 看 ， 这 就 像 是 读 一 本 写 得 很 差 的 书 和 读 一 本 文 
笔 很 好 又 易 读 的 书 。 阅 读 前 者 需要 更 长 的 时 间 ， 我 们 需要 耗费 更 多 的 精力 才能 获得 与 后 者 
相同 的 信息 。 

图 像 分 类 是 一 个 有 趣 的 例子 ， 因 为 人 工 制 作 图 像 特征 比 创建 表格 数据 的 特征 更 难 。 图 像 中 
的 信息 没有 被 限制 在 同一 列 中 ， 并 且 受 光线 、 角 度 和 其 他 因素 影响 。 图 像 的 特征 提取 和 创 
建 需 要 一 种 新 的 方法 ， 这 在 一 定 程度 上 推动 了 CNN 的 发 展 。 

特征 学 习 。 回 到 人 脸 检 测 的 例子 ， 鼻 子 可 以 位 于 图 像 中 的 任何 一 组 像素 中 。 相 反 ， 银 行 余 
额 总 是 位 于 表格 数据 的 特定 列 中 。 利 用 CNN， 我 们 训练 网 络 先 去 了 解 鼻子 的 边缘 ， 然 后 从 
低级 别 的 “鼻子 边缘 ”特征 了 解 鼻 子 的 一 般 形 状 。 网 络 中 的 第 一 层 可 以 拾取 那些 鼻子 边缘 
特征 ， 然 后 将 它们 传递 给 网 络 中 后 续 的 层 ， 作 为 更 大 的 特征 映射 。 

这 些 更 琐碎 的 特征 映射 最 终 被 组 合 进 CNN 后 续 的 “ 脸 部 ”特征 层 。 这 使 得 CNN 承担 了 一 
项 之 前 尝试 过 多 次 的 任务 (“这 是 一 张 脸 吗 ?””)， 但 以 一 种 更 简单 的 方式 提出 问题 ， 耗 费 
的 精力 更 少 ， 回 答 却 更 精确 。 



















































































注 2: Hinton,， Osindero, Teh. A Fast Learning Algorithm for Deep Belief Nets, 2006. https://www.cs.toronto.edu/ 
~hinton/absps/fastnc.pdf。 
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复杂 数据 的 自动 特征 学 习 
为 了 获取 更 简单 的 分 类 (或 回归 ) 的 输出 ， 采 用 复杂 的 原始 数据 并 自动 创建 
高 阶 特征 是 深度 学 习 的 一 个 标志 。 





在 阅读 本 书 的 过 程 中 ， 你 会 了 解 如 何 将 输入 数据 类 型 与 深度 网 络 架 构 相 匹配 ， 以 及 如 何 设 
置 这 些 架构 来 以 最 佳 的 方式 对 基础 数据 集 建 模 。 

5. 生成 模型 

生成 模型 不 是 一 个 新 概念 ， 但 深度 网 络 所 达到 的 水 平 已 经 开始 与 人 类 的 创造 力 相 竞争 。 从 
生成 艺术 作品 到 创作 音乐 ， 其 至 写 啤酒 评论 ， 每 天 深度 学 习 都 以 创造 性 的 方式 被 应 用 。 近 
年 来 值得 关注 的 生成 模型 变 体 包括 : 

。 谷歌 的 Inceptionism 

。 艺术 风格 建 模 

。 生成 对 抗 网 络 (generative adversarial networks ，GAN ) 

*。 RNN 


下 面 快速 了 解 一 下 这 些 模型 。 

Inceptionism。Inceptionism 是 一 种 以 反 向 顺序 训练 层 的 卷 积 网 络 ， 它 是 将 输入 图 像 与 先前 
的 约束 绑 在 一 起 的 技术 。 它 以 一 种 可 以 说 是 “幻觉 ”的 方式 对 图 像 进行 迭代 修改 以 增强 输 
出 。 在 输入 是 天 空 图 像 的 例子 中 ， 可 以 看 到 鱼 脸 出 现在 输出 图 像 的 云 中 。 谷 歌 的 这 项 研究 
表明 ， 不 同 的 神经 网 络 模型 使 用 相当 多 的 信息 来 生成 图 像 。 

艺术 风格 建 模 。 卷 积 网 络 的 变 体 已 经 能 够 学 习 特 定 画家 的 风格 ， 然 后 以 这 种 风格 为 任意 照片 
生成 新 的 图 像 。 图 3-2 (在 第 1 章 出 现 过 ) 显示 了 惊人 的 结果 。 可 以 想象 一 下 由 焚 高 为 你 画 
一 张 全 家 福 。( 在 本 书 出 版 时 ，Snapchat 可 能 推出 一 款 这 样 的 滤 镜 ， 所 以 你 不 必 等 那么 久 。) 

































































图 3-2: Gatys 等 人 2015 年 的 艺术 风格 图 片 
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2015 年 ，Gatys 等 人 发 表 了 一 篇 题 为 “A Neural Algorithm of Artistic Style” 的 论文 ， 他 们 
将 绘画 的 风格 和 内 容 分 开 。CNN 将 艺术 家 的 风格 提取 到 网 络 的 参数 中 ， 这 些 信息 之 后 可 以 
应 用 于 任意 图 像 ， 以 演 染 出 同样 的 风格 。 


GAN。 可 以 这 样 描述 GAN 的 生成 视觉 输出 : 通过 对 网 络 所 掌握 的 输入 数据 的 分 布 建 模 ， 
合成 新 的 图 像 。 第 4 章 将 深入 研究 GAN。 

RNN。RNN 可 用 于 对 字符 序列 建 模 ， 生 成 清晰 连贯 的 新 序列 。 第 5 章 将 介绍 一 个 RNN 的 
例子 ， 这 个 例子 通过 对 莎士比亚 的 作品 建 模 来 生成 莎士比亚 风格 的 新 作品 。 


RNN 另 一 个 有 趣 的 应 用 来 自 Lipton 和 Elkan 的 工作 ， 他 们 使 用 网 络 对 “银子 弹 啤 酒 ”等 专 
有 名 词 以 及 其 他 方面 的 啤酒 行 话 建 模 ， 可 以 根据 提示 生成 啤酒 评论 (例如,“ 给 我 一 个 对 
德国 拉 格 啤酒 的 3 星 评论 ”)， 令 人 印象 深刻 。 下 面 是 一 个 由 程序 生成 的 啤酒 评论 的 示例 。 
在 小 酒馆 里 随时 可 以 喝 到 。 在 玻璃 杯 中 呈现 出 漂亮 的 深 红色 ， 酒 的 顶部 也 很 漂 
亮 ， 留 有 大 量 的 泡沫 。 有 树 医 和 巧克力 的 芳香 ， 虽 说 有 树 苦 ， 但 也 不 值得 多 谈 。 
波 旁 啤酒 也 很 微妙 ， 我 真 的 不 知道 怎么 形容 这 种 啤酒 的 味道 ， 我 宁愿 它 再 多 用 炭 
过 滤 一 会 儿 。 它 虽然 很 好 喝 ， 但 我 不 在 乎 有 没有 这 种 酒 。 
6. 深度 学 习 之 道 
在 今天 的 深度 学 习 领 域 ， 有 很 多 营销 噪声 和 炒作 ， 其 中 有 些 是 合情合理 的 。 然 而 ， 深 度 学 
习 仍然 试图 回答 同样 的 机 器 学 习 基础 问题 :“ 这 张 图片 是 一 张 脸 吗 ? ”不 同 之 处 在 于 ， 深 
度 学 习 在 前 一 代 神 经 网 络 技术 的 基础 上 增加 了 先进 的 自动 化 特征 构造 ， 使 得 那些 数据 复 
杂 、 计 算 困 难 的 问题 更 容易 回答 。 
当 你 作为 实践 者 使 用 深 度 学 习 时 ， 利 用 这 种 能 力 的 最 佳 方式 是 将 输入 数据 应 用 于 适合 的 深 
度 网 络 架构 。 如 果 这 样 做 了 ， 你 就 能 够 以 新 的 、 有 趣 的 方式 成 功 应 用 深度 学 习 ， 如 果 不 这 
样 做 ， 你 将 不 会 在 逻辑 回归 等 基本 技术 之 外 学 到 新 的 建 模 能 力 。 本 书 的 剩余 部 分 致力 于 给 
身 为 实践 者 的 你 提供 必要 的 技术 和 基础 知识 ， 使 你 能 够 针对 网 络 问题 做 出 决策 ， 并 更 好 地 
利用 深度 学 习 。 


3.1.2 ”本 章 结构 

本 章 在 第 1 章 的 基础 上 深入 探讨 深度 网 络 的 具体 架构 。 我 们 将 区 分 不 同 的 架构 ， 并 分 别 介 
绍 其 组 件 的 演变 历程 ， 以 及 它们 是 如 何 从 某 些 类 型 的 数据 中 更 好 地 提取 特征 的 。 本 章 最 后 
将 探讨 深度 学 习 的 实用 性 ， 并 澄清 当今 围绕 该 领域 的 一 些 误解 。 下 面 继续 讨论 与 深度 网 络 
相关 的 架构 组 件 。 


3.2 深度 网 络 的 通用 构建 原则 
在 探讨 主要 深度 网 络 的 特定 架构 之 前 ， 先 扩展 对 核心 组 件 的 理解 。 再 次 查看 以 下 核心 组 
件 ， 并 扩展 相关 内 容 ， 以 便 理解 深度 网 络 。 


参数 
层 
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。 激活 函数 
。 损失 函数 
。 优化 方法 
。 超 参数 


接 下 来 在 这 些 概 念 的 基础 上 更 好 地 理解 深度 网 络 的 构造 块 ， 例 如 : 


。 RBM ( 受 限 玻 尔 兹 曼 机 ) 
自动 编码 器 
然后 通过 了 解 以 下 深度 网 络 架 构 加 深 对 这 些 概念 的 理解 。 
。 UPN 
。 CNN 
。 RNN 
。 递归 神经 网 络 


本 章 不 会 涉及 DL4J 是 如 何 实现 深度 网 络 的 某 些 组 件 的 。 现 在 ， 让 我 们 继续 回顾 参数 ， 以 
更 好 地 了 解 它 们 是 如 何 扩展 到 座 度 网 络 的 。 


3.2.1 参数 


第 1 章 介 绍 了 基本 的 机 器 学 习 中 方程 4x = b 中 的 参数 与 参数 向 量 x 有 关 。 神 经 网 络 中 的 参 
数 与 网 络 中 连接 的 权重 直接 相关 。 在 图 1-4 中 ， 可 以 看 到 由 x 列 向 量 表示 的 参数 向 量 。 利 
用 和 矩阵 4 和 参数 向 量 x 的 点 积 得 到 当前 的 输出 列 向 量 bp。 向 量 5 越 接 近 训 练 数据 中 的 实际 
值 ， 模 型 就 越 好 。 我 们 使 用 梯度 下 降 等 优化 方法 为 参数 向 量 找到 好 的 值 ， 来 最 小 化 训练 数 
据 集 上 的 损失 。 


深度 网 络 中 仍然 有 一 个 参数 向 量 表示 我 们 想 优 化 的 网 络 模型 中 的 连接 。 在 深度 网 络 中 与 参 
数 有 关 的 最 大 变化 是 在 不 同 的 架构 中 连接 这 些 层 的 方式 。DBN 中 有 两 组 并 行 的 前 馈 连接 ， 
具有 两 个 独立 的 网 络 。 一 个 网 络 的 层 由 RBM 组 成 《有 着 自己 风格 的 子 网 络 ， 本 章 稍 后 介 
绍 ) ， 用 于 提取 另 一 个 网 络 的 特征 。DBN 中 的 另 一 个 网 络 是 一 个 标准 的 前 馈 多 层 神经 网 络 ， 
它 利 用 从 RBM 层 网 络 中 提取 的 特征 来 初始 化 其 权重 。 这 只 是 本 章 中 参数 /权重 在 不 同 的 
深度 网 络 架构 中 特 化 的 一 个 例子 。 


参数 与 NDArray 


DL4J 使 用 ND4J 库 表示 深度 网 络 中 核心 线性 代数 的 要 素 。NDArray 和 线性 代 
数 是 使 用 DL4J 开发 神经 网 络 的 关键 。 
















































































3.2.2 层 

第 2 章 介绍 了 如 何 通过 输入 层 、 隐 藏 层 和 输出 层 来 定义 前 馈 神经 网 络 ， 并 进一步 用 更 多 类 
型 的 层 扩展 了 这 个 架构 ， 还 讨论 了 它们 与 深度 网 络 的 特定 架构 的 关联 。 在 某 些 架构 中 ， 可 
以 用 子 网 络 来 表示 层 。 前 面 列举 了 由 RBM 组 成 的 层 构成 DBN 的 例子 。 

















层 是 深度 网 络 的 基本 架构 单元 。 在 DL4J 中 ， 通 过 改变 层 所 使 用 的 激活 函数 的 类 型 (或 者 
在 使 用 RBM 情况 下 的 子 网 络 类 型 ) 来 定制 层 。 我 们 还 将 研究 如 何 使 用 层 的 组 合 来 实现 目 
标 〈 如 分 类 或 回归 ) ， 最 后 还 会 探讨 每 个 类 型 的 层 如何 使 用 不 同 的 超 参 数 (特定 于 网 络 架 
构 ) 来 让 网 络 开始 学 习 。 进 一 步 的 超 参数 调 优 有 助 于 减少 过 拟 合 。 


3.2.3 激活 函数 
第 2 章 回 顾 了 前 馈 神经 网 络 中 的 基本 激活 函数 ， 本 章 介绍 在 特定 的 架构 中 使 用 激活 函数 提 
取 特 征 的 方法 。 从 深度 网 络 的 数据 中 学 习 的 高 阶 特征 是 应 用 于 前 一 层 输出 的 非 线 性 转换 ， 
使 得 网 络 可 以 在 有 限 的 空间 内 学 习 数 据 中 的 模式 。 
常见 架构 的 激活 函数 
不 同 的 激活 国 数 适合 于 不 同类 型 的 数据 (例如 密集 与 稀 玻 )。 所 有 这 些 网 络 架 构 的 设计 决 
策 分 为 两 个 主要 的 部 分 : 

隐藏 层 
。 输出 层 
在 隐藏 层 我 们 关心 的 是 从 原始 数据 中 逐步 提取 高 阶 特征 。 根 据 所 使 用 的 网 络 架 构 ， 我 们 往 
往 使 用 层 激活 函数 的 子 集 。 本 章 将 结合 DBN、CNN 和 RNN， 详 细 介 绍 这 些 模式 。 第 4 章 
将 深入 研究 不 同 的 激活 函数 在 调 优 方 面 对 不 同 深度 网 络 架构 的 影响 。 


关于 输入 层 的 说 明 


通常 ， 输 入 层 需要 传递 原始 的 输入 向 量 特征 ， 所 以 在 实践 中 不 对 输入 层 使 用 
激活 函数 。 





















































隐藏 层 激活 函数 。 通 常 使 用 的 函数 包括 : 

。 sigmoid 

。 tanh 

。 hard tanh 

。 ReLU (及 其 变 体 ) 

对 于 大 部 分 连续 分 布 的 输入 数据 ， 最 好 用 ReLU 激活 函数 建 模 。 作 为 一 个 可 选项 ,在 
ReLU 没有 获得 良好 结果 的 情况 下 (注意 : 网 络 中 可 能 存在 其 他 与 超 参数 有 关 的 问题 )， 建 
议 使 用 tanh 激活 函数 (如果 网 络 不 是 很 深 )。 


sigmoid 激活 函数 在 实践 中 的 状况 
近年 来 ， 在 实践 和 研究 中 ， 在 隐藏 层 激活 函数 的 选择 中 ，sigmoid 激活 函数 
已 经 失去 了 人 们 的 青睐 。 


























随 着 本 书 的 推进 ， 将 探讨 在 不 同 的 架构 中 使 用 这 些微 活 函 数 的 方法 。 
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激活 函数 在 实践 中 的 演化 
我 们 也 看 到 一 个 完整 的 ReLU 家 族 出 现在 了 深度 学 习 的 研究 中 ， 比 如 “leaky 
ReLU”， 第 6 章 将 介绍 更 多 相关 内 容 。 





用 于 回归 的 输出 层 。 这 个 设计 由 我 们 期 望 模型 输出 何 种 答案 决定 。 如 果 想 从 模型 中 输出 一 
个 实数 ， 需 要 使 用 线性 激活 函数 。 
用 于 二 元 分 类 的 输出 层 。 在 这 种 情况 下 ， 我 们 将 使 用 一 个 单 神经 元 的 sigmoid 输出 层 ， 它 
为 单一 类 别 给 出 一 个 0.0 到 1.0 (不 包括 这 两 个 值 ) 范围 内 的 实 值 。 这 个 实 值 的 输出 通常 解 
释 为 概率 分 布 。 
用 于 多 分 类 的 输出 层 。 如 果 有 一 个 多 分 类 的 建 模 问 题 ， 但 我 们 只 关心 这 些 类 别 的 最 高 得 
分 ， 那 么 我 们 将 使 用 一 个 带 有 arg-max() 函数 的 softmax 输出 层 来 获得 所 有 类 别 的 最 高 得 
分 。softmax 输出 层 给 出 在 所 有 类 别 上 的 概率 分 布 。 

获取 多 个 分 类 

如 果 希 望 得 到 每 个 输出 的 多 个 分 类 (例如 ， 人 + 车 )， 不 应 以 softmax 为 输出 
层 ， 相 反应 使 用 带 有 n 个 神经 元 的 sigmoid 输出 层 ， 分 别提 供 每 个 类 别 的 概 
率 分 布 (0.0 到 1.0)。 




















3.2.4 损失 函数 
第 2 章 介 绍 了 损失 国 数 及 其 在 机 器 学 习 中 的 作用 。 损 失 国 数量 化 了 预测 输出 (或 标签 ) 和 
真实 的 输出 之 间 的 一 致 性 。 我 们 使 用 损失 函数 来 决定 对 输入 向 量 的 不 正确 分 类 的 惩罚 。 到 
目前 为 止 ， 已 经 介绍 了 下 列 损失 函数 : 
。 平方 损失 
。 逻辑 损失 
。 hinge 损失 

负 对 数 似 然 
之 前 介绍 的 损失 函数 可 以 归 到 以 下 三 组 : 

回归 
。 分 类 

重建 
第 1 章 涵盖 了 前 两 种 ， 其 中 第 三 种 ， 重 建 ， 涉 及 无 监督 特征 提取 ， 是 深度 学 习 网 络 实现 破 
纪录 的 准确 度 的 重要 原因 。 在 某 些 架 构 的 深度 网 络 中 ， 当 与 适当 的 激活 水 数 配合 使 用 时 ， 
重建 损失 函数 有 助 于 网 络 更 有 效 地 提取 特征 。 例 如 在 层 中 使 用 多 分 类 交 又 粮 作 为 损失 函 
数 ， 搭 配 使 用 softmax 作为 激活 函数 。 下 面 介绍 一 个 特殊 的 损失 函数 。 
重建 交叉 灶 
利用 重建 烂 损 失 函 数 ， 我 们 首先 应 用 “高 斯 吕 声 ”( 一 种 统计 白 噪声 )， 然 后 对 于 任何 与 原 
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始 输 入 数据 不 太 相似 的 结果 ， 使 用 损失 函数 对 网 络 施 以 惩罚 。 这 种 反馈 促使 网 络 学 习 不 同 
的 特征 ， 以 更 有 效 地 重建 输入 并 最 小 化 误差 。 在 深度 学 习 中 ， 重 建 糯 损失 用 于 涉及 RBM 
的 预 训练 阶段 的 特征 工程 。 


3.2.5 ”优化 算法 

在 机 器 学 习 中 训练 模型 涉及 为 模型 的 参数 向 量 找到 最 佳 值 的 集合 。 可 以 把 机 器 学 习 看 作 一 
个 优化 问题 : 最 小 化 与 预测 函数 参数 有 关 的 损失 函数 (基于 模型 )。 

从 损失 函数 的 角度 看 “最 佳 ” 

在 优化 算法 中 ， 将 参数 向 量 的 “最 佳 值 集合 ”定义 为 具有 最 小 损失 函数 值 的 
集合 。 











第 1 章 介绍 了 优化 、 梯 度 下 降 和 参数 向 量 的 基本 概念 。 本 市 将 研究 更 先进 的 优化 方法 ， 以 
及 如 何 使 用 它们 来 训练 深度 网 络 。 本 书 把 优化 算法 分 成 两 大 阵营 : 

。 一 阶 

。 二 阶 


阶 优化 算法 计算 雅 可 比 矩 阵 。 


雅 可 比 和 矩阵 
雅 可 比 矩 阵 是 损失 函数 值 对 每 个 参数 的 偏 导数 的 矩阵 。 


雅 可 比 矩 阵 中 有 每 个 参数 的 偏 导数 (为 了 计算 偏 导数 ， 所 有 其 他 变量 都 暂时 作为 常数 处 
理 )， 之 后 算法 在 雅 可 比 和 矩阵 指定 的 方向 上 前 进一步 。 


二 阶 算法 通过 逼近 海 森 矩 阵 来 计算 雅 可 比 矩 阵 的 导数 〈 即 导数 和 矩阵 的 导数 )。 二 阶 方 法 在 
选择 每 个 参数 的 修改 量 时 考虑 参数 之 间 的 相互 依赖 性 。 


A 
A 























二 阶 方法 
二 阶 方法 可 以 采取 “更 好 ”的 步骤 ， 然 而 每 一 步 都 需要 更 长 的 时 间 来 计算 。 






优化 算法 的 实际 应 用 

本 书 提供 了 优化 算法 的 很 多 细节 ， 以 便 你 了 解 它 们 所 涉及 的 机 制 。 后 面 简化 
了 对 优化 算法 的 讨论 ， 会 介绍 一 个 何 时 使 用 哪 种 算法 以 及 在 什么 场景 中 使 用 
的 经 验 法 则 。 
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其 他 优化 算法 

优化 算法 还 有 其 他 变 体 存 在 (如 “元 启发 式 算法 ”)， 但 本 书 不 会 涉及 。 这 些 
优化 算法 包括 : 

。 遗 传 算法 

。 粒子 群 优化 算法 

。 蚁 群 优化 算法 

。 模拟 退 火 算法 




















1. 一 阶 方法 

如 前 所 述 ， 雅 可 比 矩阵 是 损失 函数 对 网 络 中 参数 的 偏 导 数 的 矩阵 。 实 践 中 ， 在 一 个 特定 的 
点 ， 即 在 参数 的 当前 值 上 计算 它 。 

如 果 考 虑 一 步 一 步 达到 目标 ， 那 么 一 阶 方 法 可 以 计算 每 一 步 的 梯度 ( 雅 可 比 ) ， 以 确定 下 
一 步 的 方向 。 这 意味 着 在 每 次 迭代 或 者 说 每 步 中 ， 都 试图 找到 下 一 个 可 行 的 最 佳 方向 ， 如 
同 目标 函数 所 定义 的 。 这 就 是 可 以 把 优化 算法 看 作 一 个 “搜索 ”问题 的 原因 ， 它 们 正在 寻 
找 一 个 朝 最 小 误差 方向 的 路 径 。 

梯度 下 降 是 这 个 路 径 寻 找 算 法 的 一 个 成 员 。 梯 度 下 降 算法 存在 变 体 ， 但 它们 的 核心 思想 都 
是 找到 在 每 次 迭代 目标 的 正确 方向 上 的 下 一 个 步骤 。 这 些 步 又 使 我 们 走向 全 局 最 小 误差 或 
最 大 似 然 。 

SGD 是 机 器 学 习 的 主要 优化 算法 。 使 用 SGD 进行 训练 比 批量 梯度 下 降 等 方法 快 几 个 数量 
级 ， 且 于 模型 的 准确 度 无 损 。 


为 什么 SGD 被 视 作 “随机 的 ”? 


这 要 归于 计算 一 个 输入 训练 样本 (或 小 批量 训练 样本 ) 的 梯度 的 方式 。 计 算 
的 梯度 是 对 真正 梯度 “噪声 ”的 逼近 ， 但 能 够 使 SGD 收敛 得 更 快 。 























SGD 的 优点 是 易于 实现 ， 以 及 能 够 快速 处 理 大 数据 集 。 可 以 通过 调整 学 习 率 (例如 使 用 
Adagrad 等 方法 ， 稍 后 会 讨论 ) 或 使 用 二 阶 信息 〈《 即 海 森 矩 阵 ) 来 调整 SGD， 稍 后 会 探 
讨 。 由 于 其 在 面 对 噪 声 更 新 时 的 鲁 棒 性 ，SGD 也 被 视 作 一 种 流行 的 训练 神经 网 络 的 算法 ， 
它 能 帮助 建立 具有 泛 化 能 力 的 模型 。 

















学 习 率 调整 的 其 他 因素 
需要 注意 的 是 ， 动 量 和 RMSProp 等 技术 会 影响 学 习 率 。 


2. 二 阶 方 法 

所 有 二 阶 方法 都 是 对 海 森 和 矩阵 的 计算 或 逼近 。 如 前 所 述 ， 可 以 把 海 森 和 矩阵 看 作 雅 可 比 矩 阵 
的 导数 ， 即 它 是 一 个 二 阶 偏 导数 矩阵 ， 类 似 于 “跟踪 加 速度 而 不 是 速度 "”。 海 森 和 矩阵 的 作 
用 是 描述 雅 可 比 矩阵 上 每 个 点 的 曲率 。 二 阶 方法 包括 : 
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。 有 限 内 存 BFGS (L-BFGS ) 

。 共 力 梯度 

。 Hessian-free 

可 以 把 这 些 优化 算法 看 作 黑 盒 搜索 算法 ， 在 给 定 目 标 和 每 层 定义 的 梯度 的 情况 下 ， 这 些 算 
法 确定 使 误差 最 小 化 的 最 佳 方法 。 

优化 中 的 权衡 

一 阶 方法 和 二 阶 方法 的 一 个 主要 区 别 在 于 二 阶 方法 收敛 步 数 较 少 ， 但 每 步 的 
计算 量 较 大 。 














L-BFGS。L-BFGS 是 一 种 优化 算法 和 所 谓 的 准 牛 顿 方法 。 顾名思义 ， 它 是 Broyden-Fletcher- 
Goldfarb-Shanno 算法 的 一 个 变 体 ， 它 限制 了 内 存 中 存储 的 梯度 数量 。 这 意味 着 该 算法 不 计 
算 整 个 海 森 矩阵 ， 因 为 计算 成 本 更 高 。 

L-BFGS 逼近 逆 海 森 和 矩阵 ， 对 参数 空间 中 更 有 前 景 的 区 域 直 接 进 行 权重 调整 搜索 。 相 对 于 
BFGS 需要 存储 整个 梯度 的 nxn 逆 和 矩阵 ， 海 森 L-BFGS 仅 存 储 表示 梯度 的 局 部 近似 的 几 个 
向 量 。L-BFGS 执行 得 更 快 ， 因 为 它 使 用 近似 的 二 阶 信 息 。 在 实践 中 L-BFGS 和 共 斩 梯 度 
比 SGD 方法 更 快 、 更 稳定 。 





L-BFGS 在 实践 中 的 应 用 
虽然 L-BFGS 有 一 些 有 趣 的 特性 ， 但 在 深度 网 络 实践 中 并 不 常用 。 











共 恩 梯度 。 共 力 梯 度 基于 共 力 信息 引导 线性 搜索 过 程 的 方向 。 共 斩 梯 度 法 的 重点 在 于 最 小 
化 共 斩 直 2 范 数 。 共 力 梯度 与 梯度 下 降 在 执行 线性 搜索 这 一 点 上 非常 相似 ， 它 们 主要 的 区 
别 在 于 共 斩 梯 度 要 求 线性 搜索 过 程 中 每 个 连续 步骤 相对 于 方向 彼此 共 斩 。 
Hessian-free。Hessian-free 优化 与 牛顿 方法 有 关 ， 但 它 更 好 地 最 小 化 了 得 到 的 二 次 函数 。 
它 是 James Martens 在 2010 年 应 用 于 神经 网 络 的 一 种 强大 的 优化 方法 。 我 们 使 用 被 称 为 
“ 共 圈 梯度 ”的 迭代 方法 找到 二 次 函数 的 最 小 值 。 


3.2.6” 超 参数 
这 里 把 超 参 数 定义 为 用 户 可 以 自由 选择 、 可 能 影响 表现 的 配置 设置 。 
超 参数 可 以 分 为 以 下 几 类 : 
层 大 小 
。 量 级 (动量 、 学 习 率 ) 
。 正则 化 (Dropout、DropConnect、L1 和 1L2) 
。 激活 (和 激活 函数 族 ) 
。 权重 初始 化 策略 
。 损失 函数 
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。 训练 期 间 轮 数 的 设置 〈 小 批量 大 小 ) 
。 输入 数据 的 规范 化 方案 (向 量化 ) 


本 厂 用 与 深度 学 习 训 练 相关 的 一 些 新 的 超 参数 来 扩展 第 1 章 中 的 概念 。 

关于 超 参数 的 几 点 注意 事项 

一 些 超 参数 只 适用 于 某 些 情况 ， 第 6 章 和 第 7 章 将 详细 介绍 。 此 外 ， 改 变 特 
定 的 超 参数 可 能 影响 其 他 超 参 数 的 最 佳 设置 。 还 需 注 意 的 是 ， 一 些 超 参 数 互 
不 相 容 ， 如 Adagrad 和 动量 。 








1. 层 大 小 

层 大 小 是 由 给 定 层 中 神经 元 的 数量 所 定义 的 。 输 入 层 和 输出 层 相 对 容易 理解 ， 因 为 它们 直 
接 对 应 于 如 何在 建 模 问题 中 处 理 输入 和 输出 。 对 于 输入 层 ， 这 将 关系 到 输入 向 量 中 的 特征 
数量 。 对 于 输出 层 ， 要 么 是 单个 输出 神经 元 ， 要 么 是 与 我 们 想 预 测 的 类 别 数 相 匹配 的 多 个 
神经 元 。 

确定 每 个 隐藏 层 的 神经 元 数量 是 超 参数 调 优 有 挑战 性 的 地 方 。 可 以 使 用 任意 数量 的 神经 元 
来 定义 一 个 层 ， 没 有 关于 数量 的 规定 。 然 而 ， 能 够 建 模 的 问题 的 复杂 程度 与 网 络 隐藏 层 中 
有 多 少 个 神经 元 直接 相关 ， 这 可 能 迫使 你 从 设置 大 量 神经 元 开始 ， 而 这 是 需要 成 本 的 。 

在 不 同 的 深度 网 络 架 构 中 ， 层 之 间 的 连接 模式 不 同 。 然 而 正如 第 1 章 所 介绍 的 ， 连 接 的 权 
重 是 我 们 必须 训练 的 参数 。 当 模型 包含 更 多 的 参数 时 ， 增 加 了 训练 网 络 所 需 的 工作 量 。 过 
多 的 参数 会 导致 训练 时 间 过 长 ， 以 及 模型 难以 收敛 。 


过 多 的 参数 数量 与 过 拟 合 


在 某 些 情况 下 ， 较 大 的 模型 有 时 会 比较 容易 收敛 ， 因 为 它 会 简单 地 “记忆 ” 
训练 数据 。 第 6 章 将 详细 讨论 过 拟 合 的 处 理 方法 。 





















































第 6 章 将 研究 确定 每 层 神经 元 数量 的 启发 式 算法 ， 以 及 如 何 迭 代 地 找到 表现 良好 的 层 的 超 





2. 量 级 超 参数 

量 级 组 中 的 超 参 数 包括 梯度 、 步 长 和 动量 。 

学 习 率 。 机 器 学 习 中 的 学 习 率 是 通过 搜索 空间 时 ， 改 变 参数 向 量 的 速度 。 如 果 学 习 率 变 得 
很 高 ， 我 们 可 以 更 快 地 向 目标 迈进 (被 评估 的 函数 的 误差 最 小 )， 但 也 可 能 迈 出 的 一 步 太 
大 ， 导 致 我 们 刚好 错过 了 问题 的 最 佳 答案 。 

高 学 习 率 和 稳定 性 

学 习 率 过 高 的 另 一 个 副作用 是 ， 冒 着 训练 不 稳定 的 风险 ， 模 型 将 不 能 随 着 时 

间 收 剑 。 











如 果 学 习 率 设置 得 太 小 ， 可 能 需要 比 预想 更 长 的 时 间 来 完成 训练 过 程 。 低 学 习 率 会 使 学 习 
算法 效率 低下 。 学 习 率 很 复杂 ， 因 为 它们 最 终 对 数据 集 其 至 是 其 他 超 参 数 都 是 特定 的 ， 这 
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就 导致 找到 正确 的 超 参数 设置 需要 很 高 的 成 本 。 


我 们 也 可 以 根据 一 些 规则 来 使 学 习 率 随时 间 的 推移 而 降低 ， 第 6 章 和 第 7 章 将 介绍 更 多 相 


学 习 率 作为 超 参数 的 重要 性 
学 习 率 被 看 作 神 经 网 络 中 的 关键 超 参数 之 一 。 





Nesterov 动量 。SGD 的 “普通 ”版 本 直接 使 用 梯度 ， 这 可 能 有 问题 ， 因 为 对 于 任何 参数 ， 
梯度 都 接近 于 零 。 这 使 得 SGD 在 某 些 情况 下 采取 微小 的 步 ， 而 对 于 梯度 过 大 的 情况 来 说 ， 
步 则 大 大 。 为 了 缓解 这 些 问 题 ， 可 运用 以 下 技术 : 


。 Nesterov 动量 
。 RMSProp 

。 Adam 

。 AdaDelta 











DL4J 与 更 新 器 

Nesterov 动量 、RMSProp、Adam 和 AdaDelta 在 DL4J 的 术语 中 被 称 为 “更 
新 器 "。 本 书 的 大 部 分 术语 与 大 多 数 次 度 学 习 文献 通用 ， 在 此 特别 提醒 你 注 
意 DL4J 的 这 种 变化 。 








可 以 通过 增加 动量 来 加 速 训 练 ， 但 可 能 导致 错过 最 优 参数 值 ， 降 低 模型 达到 最 小 误差 的 概 
率 。 动 量 是 介 于 0.0 和 1.0 之 间 的 一 个 因子 ， 用 作 随 时 间 变 化 的 权重 的 变化 率 ， 通 常 动量 
会 在 0.9 到 0.99 之 间 取 值 。 

AdaGrad。AdaGrad 是 一 种 有 助 于 我 们 找到 “正确 ”学 习 率 的 技术 。AdaGrad 名 字 的 由 来 
是 “ 自 适 应 ”地 使 用 次 梯度 方法 来 动态 地 控制 优化 算法 的 学 习 率 。AdaGrad 是 单调 递减 的 ， 
学 习 率 永远 不 会 增加 到 超过 初始 设 定 的 基础 学 习 率 。 

AdaGrad 是 梯度 计算 历史 平方 和 的 平方 根 。AdaGrad 在 开始 时 加 速 训 练 ， 并 朝 着 收敛 的 方 
向 适当 减速 ， 使 训练 过 程 更 平滑 。 

RMSProp。RMSProp 是 一 种 非常 高 效 但 在 本 书写 作 时 尚未 发 表 的 自 适 应 学 习 率 方法 。 有 
趣 的 是 ， 现 在 在 工作 中 使 用 这 种 方法 的 人 都 提 及 了 Geoff Hinton 的 Coursera 课程 第 6 节 第 
29 页 幻灯 片 (http://cs231n.github.io/neural-networks-3/)。 

AdaDelta。AdaDelta 是 AdaGrad 的 变 体 ， 它 只 保留 最 近 的 历史 ， 而 不 像 AdaGrad 那样 积累 。 
ADAM。ADAM (一 种 最 近 由 多 伦 多 大 学 开发 的 更 新 技术 ) 从 梯度 的 一 阶 怎 和 二 阶 矩 估计 
中 导出 学 习 率 。 

3. 正则 化 

下 面 深 入 探讨 第 2 章 涉及 的 正则 化 的 概念 。 正 则 化 是 针对 过 拟 合 而 采取 的 措施 。 当 模型 能 
够 描述 训练 集 ， 但 不 能 很 好 地 泛 化 到 新 的 输入 时 ， 过 拟 合 就 发 生 了 。 过 拟 合 模型 对 其 没有 
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遇 到 过 的 数据 没有 预测 能 力 。Geoffery Hinton 描述 了 建立 神经 网 络 模型 的 最 佳 方法 : 
使 它 过 拟 合 ， 然 后 想 尽 办 法 将 其 规范 化 。 


超 参 数 的 正则 化 有 助 于 修改 梯度 ， 使 它 不 向 导致 其 过 拟 合 的 方向 迈进 。 正 则 化 方法 如 下 
所 示 : 


。 Dropout 
。 DropConnect 
。 Ll 惩罚 
。 L2 惩罚 
Dropout 和 DropConnect 屏蔽 每 一 层 的 部 分 输入 ， 使 神经 网 络 学 习 其 他 部 分 。 将 部 分 数据 
归 零 会 导致 神经 网 络 去 学 习 更 常见 的 特征 。 正 则 化 通过 在 通常 的 梯度 计算 式 中 增加 一 个 额 
外 项 的 方式 来 起 作用 。 
Dropout。Dropout 是 一 种 通过 省 略 隐藏 单元 来 改进 神经 网 络 训 练 的 机 制 ， 它 也 加 快 了 训练 
速度 。Dropout 的 做 法 是 随机 丢弃 一 个 神经 元 ， 这 样 它 将 不 会 影响 前 向 传递 和 反 向 传播 。 
与 模型 平均 相关 的 Dropout 
还 可 以 将 Dropout 与 对 多 个 模型 的 输出 取 平 均值 的 概念 联系 起 来 。 如 果 使 用 
0.5 的 Dropout 系数 ， 那 就 相当 于 得 到 了 模型 的 平均 值 。 特 征 的 随机 Dropout 
是 从 2” 个 可 能 的 架构 中 选取 的 样本 ,其 中 入 是 参数 的 数量 。 























DropConnect。DropConnect 与 Dropout 做 的 事情 一 样 ， 但 它 不 隐藏 单元 ， 而 是 屏蔽 两 个 神 
经 元 之 间 的 连接 。 

L1。 相 比 之 下 ， 惩 罚 方法 L1 和 1L2 是 防止 神经 网 络 参数 空间 在 一 个 方向 上 过 大 的 一 种 方 
法 ， 它 们 将 大 的 权重 变 小 。 


L1 正则 化 在 非 稀 玖 情况 下 被 认为 计算 低 效 ， 它 有 着 稀 政 输 出 ， 并 且 内 置 了 特征 选择 。 
L1 正则 化 乘 以 权重 的 绝对 值 而 不 是 它们 的 平方 。 这 个 函数 使 许多 权重 为 零 ， 同 时 允许 少 
数 权重 变 大 ， 使 解释 权重 更 容易 。 

L2。 相 比 之 下 ，L2 正则 化 由 于 具有 解析 解 和 非 稀疏 输出 ， 因 而 计算 高 效 ， 但 是 它 不 能 
动 选择 特征 。“L2” 正 则 化 函数 是 一 种 普通 且 简 单 的 超 参数 函数 ， 它 在 目标 函数 中 增加 了 
一 个 项 来 降低 平方 权重 。 你 需要 把 权重 的 平方 和 除 以 2， 然 后 乘 以 一 个 被 称 为 “权重 成 本 ” 
的 系数 。L2 提升 了 泛 化 能 力 ， 在 输入 改变 时 使 模型 的 输出 平 谓 ， 并 且 帮 助 网 络 忽 略 那些 它 
不 使 用 的 权重 。 


4. 小 批量 

使 用 小 批量 ， 我 们 发 送 一 个 以 上 的 输入 向 量 (一 组 或 一 批 向 量 ) 在 学 习 系统 中 进行 训练 ， 
这 人 允许 我 们 在 计算 机 架构 层面 更 高 效 地 利用 硬件 和 资源 。 这 种 方法 还 允许 我 们 以 向 量化 的 
方式 计算 某 些 线性 代数 运算 (特别 是 矩阵 到 和 矩阵 乘法 )。GPU 存在 的 情况 下 ， 也 可 以 选择 
将 向 量化 计算 发 送 给 GPU。 






































3.2.7 小 结 


第 2 章 介绍 了 前 馈 多 层 神 经 网 络 的 一 些 基 本 正则 化 工具 ， 本 章 介 绍 了 一 些 新 的 超 参 数 技术 
和 选项 ， 以 便 找 到 更 好 的 参数 向 量 。 下 面 把 这 些 想 法 结合 在 一 起 ， 建 立 深度 网 络 的 构造 块 。 


3.3 深度 网 络 的 构造 块 


建立 深度 网 络 超越 了 基本 的 前 馈 多 层 神 经 网 络 。 在 某 些 情况 下 ， 深 度 网 络 以 较 小 的 网 络 为 
构建 块 ， 组 合成 大 型 网 络 。 在 其 他 情况 下 ， 它 们 使 用 一 组 专门 的 层 。 下 面 是 要 重点 介绍 的 
具体 的 构造 块 。 

前 馈 多 层 神经 网 络 
。 RBM 

自动 编码 器 
第 2 章 介绍 了 标准 前 馈 网 络 。 前 馈 网 络 受到 了 生物 神经 元 网 络 的 启发 ， 它 是 最 简单 的 人 工 
神经 网 络 。 它 由 一 个 输入 层 、 一 个 或 多 个 隐藏 层 和 一 个 输出 层 组 成 。 本 市 将 介绍 被 看 作 更 
大 的 深度 网 络 的 构造 块 的 网 络 。 
。 RBM 

自动 编码 器 
RBM 和 自动 编码 器 的 特点 是 额外 的 逐 层 训练 步 又， 它们 通常 在 其 他 更 大 的 深度 网 络 中 被 
用 于 预 训练 阶段 。 


无 监督 逐 层 预 训练 

无 监督 逐 层 预 训练 在 某 些 训练 场景 中 起 作用 。 随 着 时 间 的 推移 ， 更 好 的 优化 
方法 、 激 活 函 数 和 权重 初始 化 方法 的 出 现 降 低 了 基于 预 训练 的 深度 网 络 的 重 
要 性 。 预 训练 比较 有 用 的 一 个 场景 是 ， 有 许多 未 标记 的 数据 ， 但 只 有 一 组 相 
对 较 小 的 已 标记 的 训练 数据 。 然 而 预 训练 给 调 优 带 来 了 额外 的 开销 ， 并 且 增 
加 了 训练 时 间 。 
逐 层 预 训练 的 工作 方式 是 首先 对 输入 数据 的 第 一 层 (如 RBM) 执行 无 监督 
预 训练 。 这 为 主要 的 神经 网 络 (例如 前 馈 多 层 感知 器 ) 提供 了 第 一 层 的 权 
重 。 在 网 络 中 逐 层 执行 此 过 程 ， 将 基于 训练 输入 的 前 一 层 的 输出 作为 下 一 层 
的 输入 ， 这 种 预 训练 过 程 有 助 于 创建 初始 值 良 好 的 主要 神经 网 络 的 参数 。 















































RBM 对 概率 建 模 ， 并 且 在 特征 提取 方面 非常 出 色 。 它 是 前 馈 网 络 ， 其 中 数据 在 一 个 方向 
上 传递 ， 且 有 两 个 偏 置 项， 不 像 传 统 的 反 向 传播 前 馈 网 络 那 样 只 有 一 个 偏 置 。 


自动 编码 器 是 前 馈 神经 网 络 的 一 个 变 体 ， 它 具有 一 个 额外 的 偏 置 ， 用 于 计算 重建 原始 输入 
的 误差 。 在 训练 之 后 ， 自 动 编 码 器 被 用 于 激活 普通 的 前 馈 神经 网 络 。 这 是 一 种 无 监督 的 特 
征 提取 形式 ， 因 为 神经 网 络 仅 使 用 原始 输入 来 学 习 权重 ， 而 不 使 用 带 有 标签 的 反 向 传播 。 
深度 网 络 可 以 使 用 RBM 或 自动 编码 器 作为 大 型 网 络 的 构造 块 (不 过 单个 网 络 很 少 同时 使 
用 这 两 个 模块 )。 下 面 仔细 研究 这 两 种 网 络 。 
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3.3.1 RBM 
在 深度 学 习 中 RBM 用 于 以 下 方面 : 
。 特征 提取 
。 降 维 
RBM 的 全 称 “ 受 限 玻 尔 效 曼 机 ”中 “ 受 限 ”的 意思 是 禁止 同一 层 的 节点 之 间 的 连接 ( 例 
如 ， 信 和 号 传递 过 程 中 没有 可 见 - 可 见 或 隐藏 - 隐藏 的 连接 ) 。Geoff Hinton 是 深度 学 习 的 先 
驱 ， 大 约 十 年 前 就 开始 推广 RBM 的 使 用 ， 他 对 更 通用 的 玻 尔 效 曼 机 的 描述 如 下 : 
一 种 对 称 连接 的 、 神 经 元 型 的 单元 ， 对 开启 或 关闭 做 出 随机 决策 。 
RBM 也 是 一 种 自动 编码 器 ， 后 面 会 讨论 。RBM 在 更 大 的 网 络 (如 DBN) 中 用 作 预 训练 层 。 




















Geoff Hinton 


Geoff Hinton 是 谷歌 杰出 的 (兼职 ) 研究员 ,同时 也 是 多 伦 多 大 学 著名 的 名 誉 教授 。 
Hinton 博士 的 团队 在 RBM 和 DBN 领域 做 出 了 关键 性 贡献 。 


Hinton 博士 的 研究 团队 取得 了 一 些 成 果 ， 这 些 成 果 很 大 程度 上 促成 了 今天 人 们 对 深 
度 学 习 和 领域 的 广泛 关注 。2012 年 ，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 
开发 了 一 个 名 为 AlexNet 的 “大 型 深度 卷 积 神经 网 络 "， 赢 得 了 2012 年 的 ILSVRC 
(ImageNet 大 规模 视觉 识别 挑战 赛 )。AlexNet 被 誉 为 计算 机 视觉 的 进步 ， 其 至 有 人 认 
为 它 是 深度 学 习 热 潮 的 开 病 。 


Hinton 博士 一 直 是 基础 研究 的 倡导 者 ， 他 坚信 长 期 的 坚持 必 会 开花 结果 。 


Es 在 我 和 Terry Sejnowski 发 明 玻 尔 诊 曼 机 学 习 算 法 之 后 ， 我 花 了 17 年 的 
时 间 才 找到 了 一 个 运行 高 效 的 版 本 。 如 果 你 真 的 相信 一 个 想法 ， 你 必须 不 断 


尝试 。 











一 


. 网 络 布局 
基本 的 RBM 有 五 个 主要 部 分 : 


。 可 见 单元 

。 隐藏 单元 

。 权重 

。 可 见 的 偏 置 单元 
。 隐藏 的 偏 置 单元 


标准 的 RBM 有 可 见 层 和 隐藏 层 ， 如 图 3-3 所 示 。 还 可 以 从 图 中 看 到 隐藏 单 元 和 可 见 单元 
之 间 的 权重 (连接 )。 我 们 从 传统 的 神经 网 络 意 义 上 来 思考 这 些 权 重 。 












































可 见 层 隐藏 层 











图 3-3: RBM 网 络 








在 RBM 中 ， 每 个 可 见 单元 与 每 个 隐藏 单元 连接 ， 但 同一 层 的 单元 不 相连 。RBM 的 每 一 层 
都 可 以 想象 成 一 行 节点 ， 可 见 层 和 隐藏 层 的 节点 通过 带 权 重 的 连接 相连 。 


可 见 层 和 隐藏 层 。 在 RBM 中 ,输入 (可 见 ) 层 的 每 个 节点 通过 权重 与 隐藏 层 的 每 个 节点 
连接 ， 但 同一 层 的 两 个 节点 不 会 相连 。 第 二 层 是 “隐藏 ” 层 ， 隐 藏 单 元 是 特征 检测 器 ， 从 
输入 数据 中 学 习 特 征 。 每 层 的 节点 受到 了 生物 学 前 馈 多 层 神 经 网 络 的 启发 。 可 见 层 中 的 单 
元 (节点) 是 “可 观 赛 的 ”， 因 为 它们 以 训练 向 量 为 输入 。 每 层 都 有 一 个 偏 置 单元 ， 其 状 
态 总 是 设置 为 “ 开 ”。 

每 个 节点 基于 输入 执行 计算 ， 并 输出 由 激活 函数 随机 决定 是 否 发 送 数 据 的 结果 。 就 像 第 1 
章 中 的 人 工 神经 元 一 样 ， 激 活 的 计算 基于 连接 的 权重 和 输入 值 进行 ， 权 重 的 初始 值 随 机 
生成 。 
连接 和 权重 。 所 有 连接 都 是 在 可 见 层 - 隐藏 层 之 间 的 ， 没 有 可 见 - 可 见 或 隐藏 - 隐藏 这 样 
的 连接 。 边 代表 信号 通过 的 连接 。 简 单 来 讲 ， 这 些 圆 圈 或 节点 就 像 人 类 的 神经 元 一 样 ， 它 
们 是 决策 单元 ， 通 过 计算 行为 决定 是 开 还 是 关 。“ 开 ”意味 着 它们 通过 网 络 进 一 步 传 递 信 
号 ,“ 关 ”意味 着 不 这 样 做 。 

通常 ,“ 开 ”意味 着 通过 节点 的 数据 有 价值 ， 它 包含 有 助 于 网 络 做 出 决策 的 信息 。“ 关 ” 意 
味 着 网 络 认为 特定 的 输入 是 无 关 的 噪声 。 训 练 过 的 网 络 知 道 哪些 特征 / 信号 与 哪些 标签 
(哪些 代码 包含 哪些 消息 ) 相关 。 通 过 训练 ， 网 络 学 习 对 接收 的 输入 做 出 准确 的 分 类 。 
偏 置 。 有 一 组 偏 置 权 重 (“ 参 数 ”) 将 每 层 的 偏 置 单元 与 层 中 每 个 单元 连接 。 偏 置 节 点 有 助 
于 网 络 对 输入 节点 始终 处 于 开 或 者 关 的 情况 做 更 好 地 区 分 和 建 模 。 

2. 训练 

使 用 RBM 的 预 训练 技术 意味 着 教 它 从 有 限 的 数据 样本 中 重建 原始 数据 ， 即 在 给 定 一 个 下 
巴 的 情况 下 ， 一 个 训练 有 素 的 网 络 可 以 近似 (或 “重建 ”) 一 张 脸 。RBM 学 习 重 建 输入 数 
据 集 ， 稍 后 将 介绍 重建 的 概念 。 
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对 比 散 度 

RBMS 使 用 一 种 被 称 为 “对 比 散 度 ” 的 算法 计算 梯度 。 对 比 散 度 是 用 于 
RBM 逐 层 预 训练 抽样 的 算法 的 名 称 。 它 也 被 称 为 “CD-k”。 对 比 散 度 通过 一 
个 马尔 可 夫 链 的 步 采 样 来 猜测， 从 而 最 小 化 KL 散 度 (数据 的 真实 分 布 和 
猜测 之 间 的 差 ) 。 





3. 重建 
经 过 无 监督 预 训练 的 深层 神经 网 络 (RBM， 自 动 编码 器 ) 通过 重建 对 未 标记 的 数据 执行 
特征 工程 。 在 预 训练 中 ， 通 过 无 监督 的 预 训 练 学 习 获 得 的 权重 用 于 DBN 等 网 络 的 权重 初 
始 化 。 


重建 即 和 矩阵 分 解 
重建 是 一 个 和 矩阵 分 解 问题 。 


图 3-4 给 出 了 RBM 重建 涉及 的 网 络 可 视 化 解释 。 


























r=b+ 
a 
r=b+ 
重建 值 是 新 的 输出 激活 值 是 
新 的 输入 
r=b+ 
a 
r=b+ 
Wi W 
权重 相同 
3-4: RBM 重建 





可 以 通过 查看 MNIST 数据 集 来 直观 地 了 解 RBM 的 重建 。MNIST 是 美国 国家 标准 与 技术 
研究 院 综 合 数据 集 ， 其 中 包含 图 像 。MNIST 数据 集 是 手写 数字 0 到 9 的 图 像 集合 。 图 3-5 
是 MNIST 中 一 些 手写 数字 的 样本 。 











AN WA 
veANSANA 太 ww 一心 
外 SA 工 WN 一 局 
warm WN 
> 局 人 ”下 骨 六 下 吕 
ooNmNALHNDLO 
cmNCmT 一 中 
~ 人 下 IN 人 口 


saN SAwJ、e 
Cs 人 Ne 
oN imN—S 
DMONOUTWN~O 
DANMNARON~SO 
-3MAKRWNU~O 
es 下 NO 一 心 








图 3-5:， MNIST 数字 样本 





习 MNIST 数据 集 ， 人 看 它 能 否 很 好 地 重建 数字 。 棋 
了 使 用 RBM 逐步 重建 MNIST 数字 的 渲染 


MNIST 的 训练 数据 集 有 60 000 条 记录 ， 测 试 数据 集 有 10 000 条 i 记录。 如果 使 用 RBM 学 

















3-6 显示 
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交 又 人 : 


交 又 ，140 


交 又 炉 : 78 


交叉 炉 : 4 

















3-6: 用 RBM 重建 MNIST 数字 


如 果 训 练 数据 呈正 态 分 布 ， 那 么 它们 大 多 数 都 集中 在 一 个 中 心平 均值 周围 ， 并 且 距 离 该 平 


均值 越 远 ， 就 越 稀 玻 ， 


看 起 来 像 一 个 钟 形 曲线 。 如 果 知 道 正常 数据 的 平均 值 、 




















方差 或 标准 


差 ， 我 们 可 以 重建 该 曲线 。 但 假设 不 知道 平均 值 和 方差 .， 这些 就 是 需要 我 们 猜测 的 参数 。 














为 它们 随机 选择 值 ， 并 将 其 
概率 分 布 之 间 的 差异 ， 


就 像 我 们 测量 错误 的 分 类 ， 


整 参数 ， 再 试 一 次 。 


ie 0 eens 
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重建 交叉 类 

这 里 的 目标 函数 通常 是 重建 交 又 炉 ， 或 KL 发 散 (数学 家 和 密码 分 析 家 
Solomon Kullback 和 Richard Leibler 于 1951 年 首次 发 表 了 一 篇 关于 这 一 技术 
的 论文 )。“ 交 又” 指 两 个 分 布 之 间 的 比较 。“ 烂 ”是 信息 学 理论 的 一 个 术语 ， 
指 不 确定 性 。 例 如 ， 有 具有 广泛 分 布 或 方差 的 正常 曲线 也 意味 着 关于 数据 点 在 
何 处 减少 有 更 大 的 不 确定 性 。 这 种 不 确定 性 叫 作 业 。 




















4. RBM 的 其 他 用 途 

使 用 RBM 的 其 他 场景 如 下 所 示 : 
。 降 维 

。 分 类 

。 回归 

。 协同 过 滤 
。 主题 建 模 


3.3.2 ”自动 编码 器 

我 们 使 用 自动 编码 器 来 学 习 数据 集 的 压缩 表示 。 通 常 ， 我 们 使 用 自动 编码 器 来 减少 数据 集 
的 维度 。 自 动 编码 器 网 络 的 输出 是 以 最 高 效 的 形式 对 输入 数据 的 重建 。 
1. 与 多 层 感知 器 的 相似 性 

自动 编码 器 与 多 层 感知 器 神经 网 络 有 很 强 的 相似 性 ， 它 们 都 具有 一 个 输入 层 、 神 经 元 的 隐 
藏 层 以 及 一 个 输出 层 。 二 者 的 关键 区 别 是 自动 编码 器 中 输出 层 与 输入 层 的 单元 数量 相同 。 
图 3-7 给 出 了 一 个 自动 编码 器 网 络 的 例子 。 



































输入 层 新 到、 网 络 重建 











图 3-7: 自动 编码 器 的 网 络 架构 
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除了 输出 层 之 外 ， 还 有 一 些 其 他 的 差异 ， 下 面 列 出 它们 。 
2. 定义 自动 编码 器 的 特征 
自动 编码 器 的 做 法 与 多 层 感知 器 有 两 点 不 同 。 

它 在 无 监督 的 学 习 中 使 用 未 标记 的 数据 。 

它 建立 了 输入 数据 的 压缩 表示 。 
未 标记 数据 的 无 监督 学 习 。 自 动 编码 器 直接 从 未 标记 的 数据 中 学 习 ， 这 是 多 层 感知 器 和 自 
动 编码 器 之 间 的 第 二 个 主要 区 别 。 
学 习 重建 输入 数据 。 多 层 感 知 器 网 络 的 目标 是 对 一 个 类 别 生成 预测 例如， 欺诈 与 非 欺 
诈 )。 自 动 编码 器 通过 训练 来 重建 自己 的 输入 数据 。 
3. 训练 自动 编码 器 
自动 编码 器 依赖 反 向 传播 更 新 其 权重 。RBM 和 一 般 的 自动 编码 器 的 主要 区 别 是 计算 梯度 
的 方式 不 同 。 
4. 自动 编码 器 的 常见 变 体 
需要 注意 自动 编码 器 的 两 个 重要 变 体 是 压缩 自动 编码 器 和 去 品 自 动 编码 器 。 
压缩 自动 编码 器 。 这 是 图 3-7 所 描述 的 架构 。 网 络 输入 必须 先 经 过 网 络 的 瓶颈 区 域 ， 然 后 
再 扩展 回答 出 表示 。 
去 噪 自动 编码 器 。 去 噪 自动 编码 器 用 于 这 样 的 场景 : 给 予 自动 编码 器 损坏 的 输入 〈 如 随机 
删除 一 些 特征 )， 网 络 将 被 迫 学 习 未 损坏 的 输出 。 
5. 自动 编码 器 的 应 用 
建立 一 个 模型 来 输入 数据 集 可 能 乍 听 起 来 没什么 用 ， 但 我 们 对 输出 本 身 不 太 感 兴趣 ， 而 对 
输入 和 输出 表示 之 间 的 差异 更 感 兴趣 。 如 有 果 可 以 训练 一 个 神经 网 络 学 习 它 通常 “看 到 ”的 
数据 ， 那 么 这 个 网 络 也 可 以 让 我 们 知道 它 是 否 “ 看 到 ”了 异常 或 反常 的 数据 。 
作为 异常 检测 器 的 自动 编码 器 
自动 编码 器 通常 用 于 那些 我 们 知道 正常 数据 是 什么 样 的 ， 但 是 很 难 描述 异常 
数据 是 什么 的 系统 ， 如 异常 检测 系统 。 






































3.3.3” 变 分 自动 编码 器 

最 新 的 自动 编码 器 模型 是 Kingma 和 Welling 引入 的 变 分 自动 编码 器 (VAE)， 参 见 图 3-8。 
VAE 类 似 于 压缩 和 去 噪 的 自动 编码 器 ， 它 们 都 以 无 监督 的 方式 进行 训练 以 重建 输入 。 
然而 ，VAE 执行 训练 的 机 制 完 全 不 同 。 在 压缩 /去 噪 自动 编码 器 中 ， 激 活 被 映射 为 整个 层 
的 激 话 ， 与 标准 神经 网 络 一 样 。 相 比 之 下 ，VAE 使 用 概率 方法 前 向 传递 。 
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3-8: VAE 网 络 架 构 





VAE 模型 假设 数据 x 通过 两 步 生成 : (1) 从 先 验 分 布 生成 值 z~p(z);，(2) 根据 某 个 条 件 分 布 
x~p(x|z) 生成 数据 实例 。 当 然 ， 如 果 不 知 道 z 的 值 ， 通 常 很 难 精确 推断 p(zjx)。 为 了 处 理 这 
个 问题 ， 我 们 让 两 个 分 布 p(zlx) 和 p(xlz)， 分 别 由 神经 网 络 一 一 编码 器 和 解码 器 来 交 近 。 例 
如 ， 如 果 p(zk) 是 高 斯 分 布 ， 则 由 编码 器 正 向 激活 提供 高 斯 分 布 的 参数 j 和 o。 


类 似 地 , p(xlz) 的 分 布 参 数 由 解码 器 前 向 传递 提供 *。 总 体 上 , 网 络 通过 反 向 传播 来 训练 , 以 
最 大 化 训练 数据 logp(x,…, zx) 的 边际 似 然 度 的 下 界 。VAE 模型 也 已 被 扩展 以 允许 使 用 变 
分 循环 自动 编码 器 对 时 间 序 列 进行 无 监督 学 习 。 我 们 在 第 5 章 生 成 MNIST 数字 的 实例 中 
会 见 到 VAE。 






























































注 3: 这 些 分 布 参 数 不 应 与 可 训练 的 网 络 参 数 混淆 ， 实 际 上 它们 只 是 用 于 指定 (例如 ) 高 斯 分 布 的 平均 值 和 
方差 ， 或 伯 努 利 分 布 的 平均 值 的 网 络 激活 值 。 
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第 4 章 
深度 网 络 的 主要 来 构 





* 


建筑 是 艺术 之 母 ， 没 有 我 们 自己 的 建筑 ， 我 们 的 文明 就 没有 灵魂 。 

Frank Lloyd Wright 

之 前 介绍 过 深度 网 络 的 一 些 组 件 ， 下 面 介 绍 深度 网 络 的 四 个 主要 架构 ， 以 及 如 何 用 较 小 的 

网 络 来 构建 它们 。 前 面 的 章 节 介绍 了 以 下 四 种 主要 的 网 络 架构 : 

。 UPN 

。 CNN 

*。 RNN 
递归 神经 网 络 

本 章 将 详细 介绍 其 中 每 种 架构 。 第 2 章 深 入 讲解 了 一 般 神经 网 络 的 算法 和 数学 知识 ， 本 章 

则 关注 不 同 深度 网 络 的 更 高 级 的 架构 ， 以 便 读者 在 实践 中 应 用 这 些 网 络 。 

本 书 对 有 些 网 络 的 介绍 较 少 ， 而 主要 关注 实际 工作 中 常见 的 两 种 架构 : 用 于 图 像 建 模 的 

CNN 和 用 于 序列 建 模 的 LSTM 网 络 (循环 网 络 )。 

















4.1 UPN 

在 这 一 组 中 ， 我 们 介绍 以 下 三 种 架构 ; 
自动 编码 器 

。 DBN 

。 GAN 

















注 1: Frank Lioyd Wright (1869 一 1959)， 美 国 最 伟大 的 建筑 师 之 一 。 一 一 译 者 注 
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关于 自动 编码 器 角色 的 说 明 
第 3 章 讨论 过 深度 网 络 中 自动 编码 器 的 基本 结构 ， 因 为 它 经 常 被 用 作 大 型 网 
络 的 一 部 分 。 像 许多 其 他 网 络 一 样 ， 它 也 可 以 被 用 作 独 立 的 网 络 。 








介绍 过 了 自动 编码 器 ， 下 面 重点 研究 DBN 和 GAN。 


4.1.1 DBN 


DBN 由 预 处 理 阶段 的 RBM 的 层 ， 以 及 调 优 阶段 的 前 馈 网 络 组 成 。 图 4-1 显示 了 DBN 的 
网 络 架构 。 





























预 训 练 RBM 的 县 层 
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4-1: DBN 结构 





下 面 重点 解释 DBN 如 何 利 用 RBM 更 好 地 对 训练 数据 建 模 。 


1. 基于 RBM 层 的 特征 提取 

我 们 使 用 RBM 从 原始 输入 向 量 中 提取 更 高 级 的 特征 。 为 此 ， 要 设置 隐藏 单元 的 状态 和 权 
重 ， 以 便 向 RBM 提供 输入 记录 ， 并 要 求 RBM 重建 记录 时 ， 它 会 生成 非常 接近 原始 输入 
向 量 的 东西 。Hinton 从 机 器 如 何 “梦想 数据 ”的 角度 谈论 了 这 一 效果 。 

在 深度 学 习 和 DBN 的 场景 中 ，RBM 的 基本 目的 是 以 无 监督 的 训练 方式 学 习 数据 集 更 高 
级 的 特征 。 使 用 较 低 级 别 RBM 预 训练 层 学习 的 特征 作为 较 高 级 别 RBM 预 训练 层 的 输入 ， 
让 RBM 逐渐 学 习 更 高 级 的 特征 ， 可 以 更 好 地 训练 神经 网 络 。 

自动 学 习 高 级 特征 。 以 无 监督 的 方式 学 习 这 些 特 征 是 在 DBN 的 预 训练 阶段 。 在 预 训练 阶 
段 RBM 中 每 个 隐藏 层 从 数据 分 布 中 逐渐 学 习 更 复杂 的 特征 。 这 些 高 级 特征 以 非 线 性 的 方 
式 逐 渐 组 合 起 来 ， 以 实现 优雅 的 自动 化 特征 工程 。 

为 了 直观 地 理解 具有 RBM 层 的 特征 构造 ， 请 查看 图 4-2、 图 4-3 和 图 4-4， 它 们 显示 了 
RBM 在 学 习 MNIST 数字 时 激活 演 染 的 过 程 。 









































86 | 第 4 章 



































图 4-4: 在 训练 结束 时 MNIST 数字 部 分 出 现 


第 6 章 将 详细 介绍 这 些 泻 染 是 如 何 产生 的 。 可 以 看 到 在 训练 时 ，RBM 的 一 层 是 如 何 提 
取 数 字 片 段 的 。 这 些 特征 之 后 被 组 合 到 更 高 的 层 中 ， 以 构建 越 来 越 复杂 ( 且 非 线性 ) 
的 特征 。 

由 于 这 些 原始 数据 是 在 RBM 的 每 一 层 的 生成 模型 建立 过 程 中 建 模 的 ， 所 以 系统 能 够 从 作 
为 基线 的 输入 向 量化 过 程 所 产生 的 原始 输入 数据 中 ， 提 取 越 来 越 高 级 的 特征 。 这 些 特征 在 
一 个 方向 上 通过 这 些 RBM 层 前 向 传递 ， 在 顶层 产生 更 精细 的 特征 。 

初始 化 前 馈 网 络 。 之 后 使 用 这 些 特 征 层 作为 由 传统 反 向 传播 驱动 的 前 馈 神经 网 络 的 初始 
权重 。 

这 些 初 始 化 值 有 助 于 训练 算法 将 传统 神经 网 络 的 参数 引导 到 更 好 的 参数 搜索 空间 区 域 。 这 
个 阶段 被 称 为 DBN 的 微调 阶段 。 

2. 用 前 馈 多 层 神经 网 络 微调 DBN 

在 DBN 的 微调 阶段 ， 使 用 普通 的 反 向 传播 ， 以 较 低 的 学 习 率 进行 “温和 ”的 反 向 传播 。 
预 训练 阶段 被 视 作 以 无 监督 方式 对 原始 数据 参数 空间 的 一 般 搜索 。 相 比 之 下 ， 微 调 阶 段 针 
对 的 是 我 们 实际 关心 的 任务 (比如 分 类 )， 特 化 网 络 及 其 特征 。 

温和 的 反 向 传播 。RBM 的 预 训练 阶段 从 数据 中 学 习 高 级 特征 ， 其 被 用 作 前 馈 网 络 良 好 的 
初始 值 。 使 用 这 些 权 重 ， 并 对 它们 稍 作 调整 ， 以 找到 适合 最 终 神经 网 络 模 型 的 良好 的 值 。 
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输出 层 。 深 度 网 络 通常 的 目标 是 学 习 一 组 特征 ， 其 第 一 层 学 习 如 何 重建 原始 数据 集 ， 随 后 
的 层 学 习 如 何 重建 前 一 层 激 活 值 的 概率 分 布 。 神 经 网 络 的 输出 层 与 总 体 目标 相关 联 。 它 通 
常 使 用 逻辑 回归 ， 最 终 层 输入 的 数量 等 于 特征 的 数量 ， 输 出 的 数量 等 于 类 别 的 数量 。 
3. DBN 的 当前 状况 
本 书 没有 像 对 其 他 网 络 架 构 那 样 详细 介绍 DBN。 这 是 因为 CNN 已 经 统治 了 图 像 建 模 领 
域 ， 因 此 我 们 选择 重点 介绍 CNN， 详 见 下 一 节 。 

DBN 在 深度 学 习 兴 起 中 的 作用 

虽然 本 书 没 有 多 介绍 DBN， 但 该 网 络 在 深度 学 习 的 兴起 中 起 到 了 重要 作用 。 


多 伦 多 大 学 的 Geoff Hinton 团队 长 期 坚持 在 图 像 建 模 领 域 推广 技术 ， 并 取得 
了 巨大 进展 。DBN 在 深度 网 络 的 演化 中 起 着 重要 作用 ， 这 一 点 值得 注意 。 



































4.1.2 GAN 


还 有 一 个 需要 了 解 的 网 络 是 GAN。GAN 已 被 证 明 非 常 擅长 基于 其 他 训练 图 像 合 成 新 的 图 
像 。 可 以 扩展 这 个 概念 ， 对 其 他 领域 建 模 ， 例 如 : 


。 音频 

。 视频 

。 从 文本 描述 生成 图 像 

GAN 是 使 用 无 监督 学 习 并 行 训练 两 个 模型 的 网 络 的 一 个 例子 。GAN (和 一 般 的 生成 模型 ) 
的 一 个 重要 特性 是 相对 于 正在 训练 的 网 络 的 数据 量 ， 它 们 使 用 的 参数 数量 明显 少 于 普通 网 
络 。 网 络 被 迫 高 效 地 代表 训练 数据 ， 使 得 它 能 更 高 效 地 生成 与 训练 数据 类 似 的 数据 。 

1. 训练 生成 模型 、 无 监督 学 习 和 GAN 

如 果 有 大 量 训练 图 像 材料 (比如 ImageNet 数据 集 )， 我 们 可 以 构建 一 张 输 出 图 像 (相对 于 
分 类 ) 的 生成 神经 网 络 。 这 些 生 成 的 输出 图 像 被 当 作 来 自 模型 的 样本 。GAN 中 的 生成 模 
型 生成 这 样 的 图 像 ， 而 辅助 “鉴别 器 ”网 络 尝试 对 这 些 生 成 的 图 像 进行 分 类 。 


辅助 鉴别 器 网 络 尝试 将 输出 图 像 分 类 为 真实 图 像 或 合成 图 像 。 在 训练 GAN 时 ， 需 要 更 新 
参数 ， 以 便 网 络 基 于 训练 数据 生成 更 可 信 的 输出 图 像 ， 目 标 是 使 图 像 真实 到 足以 骗 过 鉴别 
器 网 络 ， 使 其 不 能 区 分 真实 输入 数据 和 合成 输入 数据 之 间 的 差异 。 


一 个 能 够 体现 GAN 模型 高 效 的 例子 是 ， 在 对 ImageNet 这 样 的 数据 集 建 模 时 ， 它 通常 具 
有 约 1 亿 个 参数 。 在 训练 过 程 中 ， 像 ImageNet (200GB) 这 样 的 输入 数据 集会 产生 接近 
100MB 的 参数 。 这 个 学 习 过 程 试 图 找到 最 高 效 的 方法 来 表示 数据 的 特征 ， 如 相似 的 像素 
组 、 边 缘 和 其 他 模式 (4.2 节 将 详细 介绍 )。 

鉴别 器 网 络 。 对 图 像 建 模 时 ， 鉴 别 器 网 络 通常 是 标准 的 CNN。 以 辅助 神经 网 络 为 鉴别 器 网 
络 ， 可 以 使 GAN 以 无 监督 的 方式 并 行 训练 两 个 网 络 。 这 些 鉴 别 器 网 络 以 图 像 为 输入 ， 然 
后 输出 分 类 。 


鉴别 器 网 络 的 输出 相对 于 合成 输入 数据 的 梯度 ， 指 出 该 如 何 略 微 改 变 合成 数据 以 使 其 更 






























































生成 网 络 。GAN 中 的 生成 网 络 生成 一 种 被 称 为 反 卷 积 层 的 特殊 类 型 层 的 数据 (或 图 像 ) 
(请 阅读 以 下 专栏 中 关于 反 卷 积 网 络 和 层 的 更 多 内 容 )。 

训练 期 间 ， 在 两 个 网 络 上 使 用 反 向 传播 更 新 生成 网 络 的 参数 ， 以 生成 更 逼真 的 输出 图 像 。 
这 里 的 目标 是 将 生成 网 络 的 参数 更 新 到 足以 “ 骗 过 ”鉴别 器 网 络 的 程度 ， 因 为 与 训练 数据 
的 真实 图 像 相 比 ， 输 出 是 如 此 有 逼真 。 

















反 卷 积 网 络 
此 类 网 络 由 纽约 大 学 的 Matthew Zeiler 和 Rob Fergus 在 论文 “Visualizing and Understanding 
Convolutional Neural Network” 中 作为 ZF 网 络 的 一 部 分 而 开发 。 一 个 反 卷 积 网 络 有 助 
于 检查 不 同 的 特征 激活 值 及 其 与 输入 空间 的 关系 ( 见 图 4-5) 。 
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4-5: 反 卷 积 层 可 视 化 


反 卷 积 网 络 的 反 卷 积 层 对 图 像 建 模 时 将 特征 映射 到 像素 ， 如 图 4-5 所 示 ， 这 与 普通 的 
卷 积 层 相反 。 这 一 特点 使 得 神经 网 络 能 够 生成 图 像 的 输出 。 反 卷 积 网 络 使 用 无 监督 和 
逐 层 的 训练 方式 ， 类 似 于 DBN。 该 网 络 有 多 个 登 层 反 卷 积 层 ， 其 中 每 一 层 基于 前 一 层 
的 输入 进行 训练 。 它 将 信息 通过 层 的 输出 当 作 该 层 输 入 的 稀疏 表示 。 











2. 建立 生成 模型 与 深度 卷 积 生成 对 抗 网 络 
GAN 的 一 个 变 体 是 深度 卷 积 生 成 对 抗 网 络 (DCGAN) 。 图 4-6 展示 了 由 DCGAN 生成 的 臣 
室 图 像 。 
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图 4-6: 由 DCGAN 网 络 生成 的 卧室 图 像 


这 个 网 络 采 用 随机 数 (来 自 均匀 分 布 )， 并 以 网 络 模型 生成 的 图 像 为 输出 。 随 着 输入 随机 
数 的 变化 ，DCGAN 会 生成 不 同类 型 的 图 像 。 

3. 条 件 GAN 

条 件 GAN 也 可 以 使 用 类 别 的 标签 信息 ， 使 它们 有 条 件 地 生成 特定 类 别 的 数据 。 


4. GAN 与 变 分 自动 编码 器 的 比较 
GAN 致力 于 将 训练 记录 归 类 为 模型 分 布 或 真实 分 布 。 当 鉴别 器 模型 预测 两 个 分 布 之 间 有 
差异 时 ， 生 成 器 网 络 调整 其 参数 。 最 终 ， 生 成 器 收敛 于 重新 生成 真实 数据 分 布 的 参数 ， 并 
且 鉴 别 器 无 法 检测 到 该 差异 。 
我 们 使 用 变 分 自动 编码 器 (VAE) 建立 相同 的 问题 ， 使 用 概率 图 形 模型 以 无 监督 的 方式 重 
建 输入 ， 如 同 第 3 章 所 讲 的 。VAE 旨 在 降低 数据 对 数 似 然 性 的 下 限 ， 使 生成 的 图 像 看 起 来 
更 加 真实 。 
GAN 和 VAE 另 一 个 有 趣 的 区 别 是 图 像 生 成 的 方式 。 使 用 基本 的 GAN， 图 像 是 用 任意 代码 
生成 的 ， 无 法 生成 具有 某 种 特征 的 图 片 。 相 比 之 下 ，VAE 有 一 个 特定 的 编码 / 解码 方案 ， 
可 以 比较 生成 的 图 像 与 原始 图 像 ， 其 连带 效果 是 我 们 能 够 为 生成 特定 类 型 的 图 像 编 码 。 
生成 模型 的 问题 
有 时 生成 的 输出 图 像 中 会 出 现 不 同类 型 的 噪声 。VAE 生成 图 像 的 缺点 是 ， 由 
其 生成 图 像 的 方式 ， 图 像 有 时 会 稍微 模糊 。GAN 生成 的 图 像 倾向 于 捕获 
输入 数据 的 样式 ， 但 有 时 不 以 连贯 的 方式 构成 场景 〈 例 如 可 以 生成 狗 的 图 
像 ， 但 看 起 来 却 不 太 像 狗 )。 
































4.2 CNN 


CNN 的 目标 是 通过 卷 积 学 习 数 据 中 的 高 级 特征 。 它 非常 适合 图 像 的 目标 识别 和 常年 举办 
的 顶级 图 像 分 类 竞赛 。 它 可 以 识别 脸 部 、 人 、 街 道 标 志 、 蝎 嘴 兽 和 许多 其 他 类 型 的 视觉 数 
据 。CNN 在 光学 字符 识别 之 上 实现 了 文本 分 析 ， 也 可 以 用 于 把 单词 作为 独立 的 文本 单元 进 
行 分 析 。 它 还 擅长 分 析 声 音 。 

CNN 能 够 高 效 地 识别 图 像 是 世人 认识 到 深度 学 习 能 力 的 主要 原因 之 一 。 如 图 4-7 所 示 ， 
CNN 擅长 从 原始 图 像 数 据 建立 位 置 和 (一些) 旋转 不 变 特征 。 
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图 4-7: CNN 与 计算 机 视觉 


CNN 正 推动 着 机 器 视觉 的 重大 进步 ， 机 器 视觉 在 自动 驾驶 汽车 、 机 器 人 、 无 人 机 和 视力 受 
损 的 治疗 方面 有 明显 的 应 用 。 

CNN 与 数据 结构 

当 输入 数据 具有 某 种 结构 时 ，CNN 往往 最 有 用 。 例 如 那些 具有 特定 重复 模式 
集 的 图 像 和 音频 数据 ， 彼 此 相 邻 的 输入 值 在 空间 上 相关 联 。 相 反 ， 从 关系 数 
据 库 管理 系统 (RDBMS) 导出 的 列 式 数据 在 空间 上 往往 没有 结构 关系 。 彼 
此 相 邻 的 列 只 是 恰好 在 数据 库 导 出 的 物化 视图 中 彼此 相 邻 而 已 。 


























CNN 还 用 于 其 他 任务 ， 例 如 自然 语言 翻译 /生成 和 情感 分 析 。 卷 积 是 帮助 我 们 基于 信和 号 构 
建 更 强健 的 特征 空间 的 强大 概念 。 
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4.2.1 生物 学 启发 


CNN 受到 了 动物 的 视觉 皮层 的 启发 。 视 觉 皮 层 中 的 细胞 对 输入 的 小 的 子 区 域 敏感 ， 我 们 称 
之 为 视野 或 感受 野 。 这 些 较 小 的 子 区 域 拼 接 在 一 起 布 满 整个 视野 。 这 些 细胞 非常 适合 利用 
大 脑 处 理 的 图 像 类 型 中 的 强 空间 局 部 相关 性 ， 并 在 输入 空间 中 充当 局 部 过 滤器 。 大 脑 的 这 
一 区 域 有 两 种 细胞 ， 简 单 的 细胞 在 检测 类 似 于 边缘 的 图 案 时 激活 ， 而 更 复杂 的 细胞 在 拥有 
较 大 的 感受 野 且 不 随 图 案 位 置 变化 时 激活 。 


4.2.2 思 


前 馈 多 层 神经 网 络 以 输入 为 单一 的 一 维 向 量 ， 用 一 个 或 多 个 隐藏 层 〈 全 连接 ) 转换 数据 ， 
之 后 网 络 从 输出 层 给 出 结果 。 对 于 传统 的 多 层 神经 网 络 和 图 像 数据 ， 出 现 的 问题 是 这 些 
网 络 对 输入 为 图 像 数据 的 场景 伸缩 性 不 好 。 例 如 对 CIFAR-10 数据 集 建 模 (参见 之 后 的 专 
栏 )， 训 练 的 图 像 是 只 有 32 个 像素 宽 、32 个 像素 高 、3 个 通道 的 RGB 信息 。 然 而 这 使 得 
第 一 个 隐藏 层 为 每 个 神经 元 创建 了 3072 个 权重 ， 并 且 该 隐藏 层 中 往往 不 止 一 个 神经 元 。 
在 许多 情况 下 ， 多 层 神 经 网 络 中 会 有 多 个 隐藏 层 ， 这 也 会 增加 权重 。 























CIFAR-10 数据 集 


CIFAR-10 数据 集 是 由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 编排 的 著名 的 图 像 
分 类 基准 数据 集 。 其 中 有 60 000 张 彩色 图 像 ， 包 含 10 个 不 同类 别 ， 每 个 类 别 包 含 6000 
张 图 像 。 每 张 图 像 都 为 32 像素 X32 像素。 数据 集中 有 50 000 张 训练 图 像 和 10 000 张 
测试 图 像 。 图 4-8 展示 了 数据 集中 图 像 的 类 别 。 
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图 4-8: CIFAR-10 数据 集 
这 些 类 别 互 不 重合 意味 着 卡车 的 图 像 只 包含 卡车 的 图 像 。 数 据 集 的 大 小 约 为 170MB。 























通常 ， 图 像 可 以 轻松 达到 300 个 像素 宽 、300 个 像素 高 、3 个 RGB 信息 通道 ， 这 将 导致 
每 个 隐藏 层 的 神经 元 具有 270 000 个 连接 权重 。 这 显示 了 全 连接 的 多 层 网 络 在 对 图 像 数据 
建 模 时 连接 的 数量 增长 速度 有 多 快 。 我 们 可 以 利用 这 些 图 像 数据 的 结构 来 改变 神经 网 络 架 
构 。 使 用 CNN 可 将 神经 元 按 下 面 的 三 维 结构 排列 : 

。 宽度 

。 高 度 

输入 的 这 些 属性 与 图 像 结构 相对 应 。 

图 像 的 像素 宽度 

。 图 像 的 像素 高 度 

。 RGB 通道 为 深度 

可 以 把 这 种 结构 看 作 三 维 的 神经 元 空间 。CNN 从 以 前 的 前 馈 变 体 发 展 而 来 的 一 个 重要 特性 
是 它 利 用 新 的 类 型 的 层 实现 计算 效率 ， 很 快 我 们 将 详细 介绍 这 一 特性 。 下 面 从 高 的 层面 了 
解 CNN 的 常见 架构 。 







































































4.2.3 CNN 架构 概要 


CNN 将 来 自 输入 层 的 输入 数据 ， 通 过 全 连接 层 ， 转 换 为 由 输出 层 给 
CNN 架构 有 很 多 变 体 ， 但 都 是 基于 层 模式 ， 如 图 4-9 所 示 。 





8 的 一 组 类 别 分 数 。 
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卷 积 ReLU 池 灌 积 ReLU 池 全 连接 
输入 层 特征 提取 层 分 类 层 

















图 4-9: 在 高 的 层面 上 抽象 的 常见 CNN 架构 


图 4-9 描述 了 三 个 主要 类 别 : 

(1) 输入 层 ， 

(2) 特征 提取 (学 习 ) 层 ， 

(3) 分 类 层 。 

输入 层 通常 接受 图 像 大 小 (宽度 x 高 度 ) 的 空间 形式 的 三 维 输入 ， 并 且 具 有 表示 颜色 通 
道 的 深度 (通常 是 3 个 RGB 颜色 通道 ) 。 
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将 小 批量 作为 第 四 维度 
将 样本 组 合 为 训练 用 的 小 批量 ， 最 终 会 得 到 四 个 维度 一 一 最 后 一 个 维度 用 于 
索引 小 批量 中 的 样本 。 因 此 ， 在 DL4J 中， 图 像 训练 数据 的 数组 有 四 个 维度 ， 


而 不 只 是 三 个 。 



































特征 提取 层 处 理 序列 的 常见 且 重 复 的 模式 如 下 所 示 。 
(1) 卷 积 层 。 

为 和 其 他 文献 保持 一 致 ， 这 里 将 ReLU 激活 函数 作为 图 中 的 一 个 图 层 。 
(2) 池 化 层 。 


这 些 层 在 图 像 中 发 现 大 量 特 征 ， 并 逐步 构造 高 级 特征 。 这 与 不 采取 传统 的 人 工 方式 ， 而 是 
自动 学 习 特 征 这 一 深度 学 习 进 展 中 的 主题 直接 相 呼 应 。 

最 后 是 分 类 层 ， 其 中 一 个 或 多 个 全 连接 的 层 用 于 获取 高 级 特征 ， 并 生成 类 别 概率 或 分 数 。 
顾名思义 ， 这 些 层 与 前 一 层 中 的 所 有 神经 元 全 连接 。 这 些 层 通常 生成 大 小 为 [5b x M] 的 二 维 
输出 ， 其 中 45 是 小 批量 中 的 样本 数量 ，N 是 我 们 想 去 评分 的 类 别 的 数量 。 

1. 神经 元 空间 排列 

回想 一 下 在 传统 多 层 神 经 网 络 中 层 是 全 连接 的 ， 层 中 的 每 个 神经 元 都 与 下 一 层 的 每 个 神经 
元 连接 。 在 CNN 层 中 神经 元 在 三 个 维度 上 被 排列 以 匹配 输入 空间 。 在 这 里 ， 深 度 意味 着 
激活 空间 的 第 三 维 ， 而 不 是 多 层 神经 网 络 中 层 的 数量 。 

2. 层 间 连接 的 发 展 

卷 积 架构 的 另 一 个 变化 是 连接 层 的 方式 。 某 一 层 的 神经 元 只 与 前 一 层 一 小 部 分 区 域 的 神经 
元 连接 。CNN 同 传统 的 多 层 网 络 一 样 ， 保 留 了 层级 架构 ， 但 有 不 同类 型 的 层 。 每 一 层 将 来 
自前 一 层 的 三 维 输入 空间 转换 为 用 于 神经 元 激活 层 的 三 维 输出 空间 ， 这 些微 活 层 有 一 些 可 
能 有 参数 也 可 能 没有 参数 的 可 微 函 数 ， 如 图 4-10 所 示 。 



















































































图 4-10: 输入 层 三 维 空间 


4.2.4 输入 层 


输入 层 加 载 和 存储 图 像 原始 输入 数据 ， 以 便 在 网 络 中 处 理 。 输 入 数据 指定 了 宽度 、 高 度 和 
通道 的 数量 。 通 道 数量 通常 为 3， 对 应 每 个 像素 的 RGB 值 。 




















94 | 第 4 章 


4.2.5 ” 卷 积 层 

卷 积 层 被 视 为 CNN 架构 的 核心 构造 块 。 如 图 4-11 所 示 ， 卷 积 层 使 用 来 自前 一 层 的 局 部 连 
接 神 经 元 转换 输入 数据 。 该 层 将 计算 输入 层 中 神经 元 的 区 域 与 输出 层 中 神经 元 局 部 连接 的 
权重 之 间 的 点 积 。 




















激活 值 








输入 空间 卷 积 层 输出 激活 空间 
(突出 显示 了 输入 ) (突出 显示 了 神经 元 深度 列 ) 











图 4-11: 具有 输入 和 输出 空间 的 卷 积 层 


输出 通常 具有 相同 的 空间 维度 (或 更 小 的 空间 维度 )， 但 有 时 会 增加 输出 的 第 三 维度 ( 深 
度 ) 中 元 素 的 数量 。 接 下 来 仔细 研究 这 些 层 中 的 一 个 关键 概念 : 卷 积 。 

1. 卷 积 

我 们 将 卷 积 定义 为 描述 合并 两 组 信息 的 规则 的 数学 运算 ， 在 物理 学 和 数学 中 都 很 重要 。 它 
使 用 傅 里 叶 变换 ， 在 空间 / 时间 域 和 频 域 之 间 定 义 了 一 个 桥梁 。 它 接收 输入 ， 应 用 卷 积 核 ， 
并 给 出 一 个 特征 映射 作为 输出 。 

图 4-12 所 示 的 卷 积 运算 被 称 为 CNN 的 特征 检测 器 。 卷 积 的 输入 可 以 是 原始 数据 或 由 另 一 
个 卷 积 输出 的 特征 上 映射。 通常 把 它 解释 为 过 涯 器 ， 由 核 过 着 输入 数据 以 获得 某 些 类 型 的 信 
息 。 例 如 边缘 核 只 允许 来 自 图 像 边缘 的 信息 通过 。 
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这 张 图 展示 了 如 何在 输入 数据 上 清 动 核 以 生成 卷 积 的 特征 〈 输 出 ) 数据 。 在 每 个 步骤 中 ， 
核 乘 以 在 其 边界 内 的 输入 数据 值 ， 在 输出 特征 映射 中 创建 一 个 条 目 。 在 实践 中 ， 如 果 检 测 
到 在 输入 中 寻找 的 特征 ， 那 么 输出 会 很 大 。 


通常 把 卷 积 层 中 的 权重 集 称 为 “过 滤器 ”( 或 核 )。 该 过 滤器 对 输入 进行 卷 积 ， 结 果 为 特征 
映射 (或 激活 映射 )。 卷 积 层 对 输入 数据 空间 执行 转换 ， 这 些 转 换 是 输入 空间 中 激活 值 和 


















































参数 (神经 元 的 权重 和 偏 置 ) 的 函数 。 每 个 过 滤器 的 激活 映射 沿 深度 堆 琶 在 一 起 ， 以 构建 
三 维 输出 空间 。 














卷 积 层 具 有 用 于 层 和 附加 超 参 数 的 参数 。 使 用 梯度 下 降 训 练 该 层 中 的 参数 ， 使 类 别 的 分 数 
与 训练 集中 的 标签 一 致 。 卷 积 层 的 主要 组 件 如 下 所 示 : 

。 过 滤器 

。 激活 映射 

。 参数 共享 

层 特 有 的 超 参 数 

下 面 介 绍 每 个 组 件 的 细节 。 

2. 过 滤器 

卷 积 层 的 参数 配置 层 的 过 滤器 集合 。 过 滤器 是 宽度 和 高 度 上 比 输 入 空间 小 的 函数 。 
自然 语言 处 理应 用 中 的 过 滤器 大 小 

过 滤器 的 大 小 可 以 等 于 输入 空间 ， 但 通常 只 在 一 个 维度 上 ， 而 不 会 在 两 个 维 
度 上 ,将 CNN 应 用 于 自然 语言 处 理 (NLP) 时 需要 注意 。 



































过 滤器 (例如 卷 积 ) 以 滑动 窗口 的 方式 适应 输入 空间 的 宽度 和 高 度 ， 如 图 4-12 所 示 。 过 
滤器 也 适应 输入 空间 的 每 个 深度 。 我 们 通过 计算 过 滤器 和 输入 区 域 的 点 积 来 计算 过 滤器 
的 输出 。 
过 滤器 计数 和 激活 映射 
我 们 将 对 输入 空间 应 用 过 滤器 的 输出 称 作 该 过 滤器 的 激活 映射 (也 称 特征 映 
射 ) 。 在 许多 CNN 图 中 ， 经 常 看 到 许多 小 的 激活 映射 。 这 些 映射 是 如 何 产 生 
的 ?这 个 问题 有 时 令 人 困惑。 
过 滤器 的 数量 是 每 个 卷 积 层 的 超 参数 值 。 这 个 超 参 数 还 控制 着 从 卷 积 层 产 生 
多 少 激活 映射 作为 到 下 一 层 的 输入 ， 可 以 将 其 看 作 三 维 层 输出 激活 空间 的 第 
三 维 (激活 映射 的 数量 )。 过 滤器 数量 超 参数 可 以 自由 选择 ， 但 设置 为 某 些 
值 会 工作 得 更 好 。 


























CNN 的 架构 被 设置 为 学 习 过 滤器 对 空间 局 部 输入 模式 生成 李强 的 激活 值 。 这 意味 着 ， 只 
当 模式 出 现在 各 自 领 域 的 训练 数据 中 时 ， 过 滤器 才 会 被 学 习 来 激活 模式 (或 特征 )。 随 着 
在 CNN 中 层 层 深入 ,会 见 到 能 够 识别 特征 的 非 线 性 组 合 的 过 滤器 ， 并 且 它 们 检测 到 的 模 
式 会 越 来 越 具 有 全 局 性 。 高 性 能 的 卷 积 架构 〈 稍 后 将 介绍 ) 已 经 表明 网 络 深度 是 CNN 的 
一 个 重要 因素 。 





下 
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3. 激活 映射 

回想 一 下 第 1 章 开 始 的 内 容 ， 如 果 神 经 元 决定 让 信息 通过 ， 激 活 值 就 是 一 个 数值 结果 。 这 
是 激活 函数 的 输入 和 连接 上 的 权重 〈 用 于 输入 ， 以 及 激活 函数 本 身 的 类 型 ) 的 函数 。 当 过 
滤器 “激活 ”时 ， 意 味 着 过 滤器 允许 信息 从 输入 空间 传递 到 输出 空间 。 

在 信息 经 CNN 前 向 传递 期 间 ， 我 们 在 输入 的 空间 维度 (宽度 、 高 度 ) 上 滑动 每 个 过 滤器 ， 
这 就 为 特定 过 滤器 生成 一 个 被 称 为 “激活 映射 ”的 二 维 输出 。 图 4-13 展示 了 这 个 激活 映射 
如 何 与 之 前 介绍 的 卷 积 特征 的 概念 相关 联 。 











0.5 : 0.2 : 0.1 





卷 积 特征 激活 映射 











图 4-13: 卷 积 与 激活 映射 





图 4-13 中 右 侧 的 激活 映射 以 不 同 的 方式 呈现 ， 以 说 明 卷 积 激活 映射 在 文献 中 通常 的 呈现 
方式 。 


激活 映射 
一 些 文献 将 激活 映射 输出 称 作 特 征 映射 ， 但 本 书 称 其 为 “激活 映射 ”。 











在 输入 空间 深 度 切 片上 背 动 过 滤器 以 计算 激活 上 映射。 我 们 计算 过 着 器 中 条 目 和 输入 空间 之 
间 的 点 积 。 过 滤器 表示 与 输入 激活 值 的 移动 窗口 ( 子 集 ) 相 乘 的 权重 。 网 络 学 习 过 滤器 ， 
当 其 在 特定 空间 位 置 看 到 输入 数据 中 某 些 类 型 的 特征 时 激活 。 
沿 输出 的 深度 堆 全 这些 激活 上 映射， 来 为 卷 积 层 创建 三 维 输出 空间 ， 如 图 4-14 所 示 。 输 出 空 
间 会 包含 那些 只 观察 输入 空间 的 一 个 小 窗口 的 神经 元 的 输出 。 
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<--- 深度 ---> 











图 4-14: 卷 积 层 的 激活 空间 的 输出 


在 某 些 情况 下 ， 这 个 输出 将 是 同一 激活 映射 中 神经 元 共享 参数 的 结果 。 生 成 输出 空间 的 每 
个 神经 元 只 连接 到 输入 空间 的 局 部 区 域 ， 如 图 4-15 所 示 。 












本 下 基本 











激活 函数 


输入 空间 
(突出 显示 了 输入 ) 


人 工 神经 元 模型 的 细节 














图 4-15: 生成 激活 输出 空间 








我 们 使 用 被 称 为 感受 野 的 超 参数 控制 这 个 过 程 的 局 部 连通 性 ， 它 控制 过 滤器 映射 的 输入 空 
间 的 宽度 和 高 度 。 





用 感受 野 控制 局 部 连通 性 
层 中 的 神经 元 沿 空 间 维 度 (宽度 和 高 度 ) 连接 到 输入 空间 的 较 小 区 域 ， 但 沿 深度 轴 的 
连接 总 是 等 于 输入 空间 的 深度 ， 这 意味 着 输入 空间 的 深度 总 是 有 充分 的 连通 性 。 来 看 
一 个 基于 CIFAR-10 输入 数据 (RGB 图 像 ) 的 例子 ， 这 个 例子 在 之 前 的 “CIFAR-10 数 
据 集 是 什么 ”专栏 出 现 过 。 
在 这 种 情况 下 ， 输 入 空间 的 大 小 为 32x32x3， 感 受 野 超 参 数 被 设置 为 SxS。 卷 积 层 
中 每 个 神经 元 都 有 一 个 连接 到 输入 空间 中 5x5x3 区 域 的 权重 。 这 样 卷 积 层 中 每 个 神 
经 元 都 有 5 XxX5x3=75 个 权重 。 
输入 空间 的 深度 为 3， 它 总 是 卷 积 层 上 权重 连通 性 的 深度 。 神 经 元 连接 区 域 的 宽度 和 
高 度 小 于 图 像 ， 但 深度 始终 与 图 像 保持 相同 。 
卷 积 层 中 连通 性 可 能 是 局 部 的 ， 但 神经 元 本 身 保 持 不 变 。 我 们 仍然 用 非 线性 函数 的 输 
入 计算 权重 的 点 积 。 
现在 唯一 的 区 别 是 神经 元 只 与 输入 的 一 个 子 集 相 连 ， 而 不 是 像 传统 的 多 层 神经 网 络 那 
样 与 前 一 层 的 每 个 神经 元 相连 。 这 种 连通 性 是 全 深度 的 ， 但 在 空间 上 是 局 部 的 。 




















过 滤器 定义 较 小 的 有 界 区 域 ， 从 输入 空间 生成 激活 映射 。 它 们 通过 之 前 描述 的 局 部 连通 
性 ， 仅 与 输入 空间 的 子 集 动 态 连接 。 这 在 保证 有 质量 的 特征 提取 的 同时 ， 减 少 了 每 层 需要 
训练 的 参数 数量 。 卷 积 层 使 用 被 称 为 参数 共享 的 技术 进一步 减少 参数 数量 。 

4. 参数 共享 

CNN 使 用 参数 共享 方案 控制 参数 总 量 ， 这 有 助 于 减少 训练 时 间 ， 因 为 这 将 使 用 更 少 的 资源 
来 学 习 训 练 数据 集 。 为 了 实现 CNN 中 的 参数 共享 ， 首 先 将 单个 二 维 深 度 切 片 定义 为 “ 深 
度 切 片 ， 然 后 约定 每 个 深度 切片 中 的 神经 元 使 用 相同 的 权重 和 偏 置 ， 这 使 给 定 卷 积 层 的 
参数 (或 权重 ) 数量 显著 减少 。 

训练 的 输入 图 像 具 有 特定 的 中 心 结构 时 ， 不 能 利用 参数 共享 。 当 我 们 总 是 期 望 某 个 特征 
现在 特定 的 地 方 〈 处 于 脸 部 中 央 ) 时 ， 会 看 到 它 对 脸 部 的 影响 。 在 这 种 情况 下 ， 不 使 用 
参数 共享 。 参 数 共享 也 是 使 CNN 对 平移 / 位 置 不 变 的 技术 。 

5. 学 到 的 过 滤器 和 泻 染 器 

图 4-16 给 出 了 学 到 的 96 个 大 小 为 11 x 11 x3 的 过 滤器 的 例子 。 使 用 参数 共享 方案 时 ， 由 
于 图 像 的 平移 不 变性 ， 检 测 的 水 平 边缘 在 图 像 的 许多 位 置 都 有 用 。 这 意味 着 只 要 在 一 个 位 
置 学 习 水 平 边 缘 ， 就 无 须 在 图 像 的 所 有 位 置 学 习 它 作为 特征 。 
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4-16: 由 Krizhevsky 等 提供 的 学 到 的 过 滤器 示例 (96 个 过 滤器 ，11 x 11 x 3) 


稍稍 分 解 一 下 ， 想 想 二 维 图 像 ， 如 有 果 将 图 像 细 分 为 四 个 部 分 ， 神 经 网 络 将 学 习 图 像 的 位 置 
不 变 特征 。 位 置 不 变性 存在 是 由 于 网 络 将 数据 细 分 成 象限 的 做 法 。 之 后 ， 它 一 次 学 习 图 像 
的 一 部 分 ， 并 将 结果 池 化 。 这 使 得 神经 网 络 学 习 到 全 局 的 特征 ， 而 不 是 任何 整体 的 局 部 子 
集 。 第 6 章 将 详细 探讨 生成 过 滤器 和 渲染 器 的 内 容 。 


CNN 特征 的 旋转 不 变性 


设计 上 学 到 的 特征 是 位 置 不 变 的 ,但 (通常) 不 是 旋转 不 变 的 ， 不 过 通过 适 
当 的 数据 增强 ， 可 以 实现 一 定 程度 的 旋转 不 变性 。 














6. 作为 层 的 ReLU 激 活 函 数 
ReLU 层 在 CNN 中 被 大 量 使 用 。ReLU 层 对 输入 数据 国 值 应 用 元 素 激 活 国 数 ， 例 如 
max(0,x)， 在 0 点 会 得 到 同样 维度 的 输出 作为 层 的 输入 。 


DL4J、 层 类 型 和 激活 函数 

在 DL4J 中 ,通过 神经 元 激活 函数 的 类 型 识别 层 (但 这 并 不 总 是 反映 在 层 的 
类 别名 称 中 )。DL4J 在 层 中 内 置 了 激活 函数 。Caffe 及 其 他 一 些 的 库 使 用 单 
独 的 激活 层 。 





在 输入 空间 上 运行 该 函数 将 改变 像素 值 ， 但 不 会 改变 输出 中 输入 数据 的 空间 维度 。ReLU 
层 设 有 参数 ， 也 没有 额外 的 超 参数 。 

7. 卷 积 层 超 参 数 

下 面 是 决定 空间 排列 和 卷 积 层 输 出 空间 大 小 的 超 参数 ”。 

。 过 滤器 (或 核 ) 大 小 (字段 大 小 ) 

。 步 长 

。 零 填充 








注 2: CNN 中 另 一 个 常见 的 超 参数 叫 作 “扩张 "。 目 前 DL4J 〈0.7 版 本 ) 还 不 支持 扩张 。 
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第 7 章 将 介绍 更 多 关于 卷 积 层 大 小 的 内 容 
本 节 解 释 这 些 超 参数 的 工作 方式 ， 第 7 章 将 介绍 CNN 层 的 调 优 机 制 。 





二 





过 滤器 大 小 。 相 对 于 过 让 器 尺寸 的 宽度 和 高 度 ， 每 个 过 让 器 在 空间 上 很 小 。 例 如 ， 第 一 个 
卷 积 层 可 能 具有 5x5x 3 大 小 的 过 滤器 。 这 意味 着 ， 假 设 输入 是 3 通道 RGB 颜色 的 图 像 ， 
那么 过 滤器 是 5 像素 宽 、5 像素 高 ，3 代表 颜色 通道 。 

输出 深度 。 可 以 手动 选择 输出 空间 的 深度 。 深 度 超 参 数控 制 卷 积 层 中 连接 到 输入 空间 相同 
区 域 的 神经 元 数量 。 

边缘 与 激活 

沿 着 深度 的 不 同 神经 元 学 会 了 在 受到 创建 的 输入 数据 (例如 颜色 或 边缘 ) 的 
刺激 时 激活 。 














我 们 将 一 组 接受 输入 空间 同一 区 域 的 神经 元 视 为 深度 列 。 

步 长 。 步 长 用 于 配置 滑动 过 滤器 窗口 在 每 次 应 用 过 滤 函 数 时 移动 的 距离 。 每 次 将 过 滤 函 数 
应 用 到 输入 列 时 ， 会 在 输出 空间 中 创建 一 个 新 的 深度 列 。 较 小 的 步 长 设置 (例如 ，1 表示 
指定 仅仅 一 个 单元 的 步 长 ) 将 在 输出 空间 中 分 配 更 多 的 深度 列 。 这 也 会 在 列 之 间 生 成 重 释 
度 更 高 的 感受 野 ， 从 而 导致 输出 空间 更 大 。 当 指定 较 大 的 步 长 时 ， 情 况 正好 相反 。 这 些 更 
大 的 步 长 使 空间 中 的 堆 受 较 少 、 输 出 空间 更 小 。 

零 填 充 。 最 后 一 个 超 参数 是 零 填 充 ， 用 它 可 以 控制 输出 空间 的 大 小 。 想 保持 输出 空间 中 输 
入 空间 大 小 时 可 以 这 样 做 。 

8. 批量 规范 化 和 层 

为 了 加 速 CNN 的 训练 ， 可 以 在 每 个 批量 中 规范 化 前 一 层 的 激活 值 。 这 种 技术 应 用 一 个 转 
换 ， 使 平均 激活 值 保持 在 接近 0.0 的 同时 ， 使 激活 值 的 标准 差 保持 在 1.0 附近 。 

CNN 的 批量 规范 化 表明 ， 规 范 化 网 络 架 构 可 以 加 快 训练 速度 。 通 过 对 每 个 训练 小 批量 的 输 
入 记录 应 用 规范 化 ， 可 以 使 用 更 高 的 学 习 率 。 批 量规 范 化 还 降低 了 训练 对 权重 初始 化 的 敏 
感性 ， 并 且 充 当 了 正则 化 器 (减少 了 对 其 他 类 型 正则 化 的 需求 )。 批 量规 范 化 也 已 应 用 于 
LSTM 网 络 ， 它 是 另 一 种 本 章 稍 后 将 讨论 的 深度 网 络 。 


4.2.6 池 化 层 


池 化 层 通常 被 插入 在 连续 的 卷 积 层 之 间 。 使 用 池 化 层 跟 随 卷 积 层 来 逐步 减 小 数据 表示 的 空 
间 大 小 (宽度 和 高 度 )。 池 化 层 在 网 络 上 逐步 减少 数据 表示 ， 并 有 助 于 控制 过 拟 合 ， 它 在 
输入 的 每 个 深度 切片 上 独立 执行 。 
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常用 的 下 采样 操作 
最 常用 的 下 采样 操作 是 取 最 大 值 的 max 操作 。 次 常用 的 操作 是 平均 池 化 。 








池 化 层 通过 max() 操作 调整 输入 数据 的 空间 (宽度 、 高 度 ) 大 小 。 这 个 操作 被 称 为 最 大 池 
化 。 使 用 2 x 2 大 小 的 过 滤器 ，max() 操作 在 过 滤器 区 域 中 取 四 个 最 大 的 数字 ， 该 操作 不 影 
响 深 度 。 
池 化 层 使 用 过 滤器 在 输入 空间 执行 下 采样 过 程 。 这 些 层 沿 输入 数据 的 空间 维度 执行 下 采样 
操作 ， 这 意味 着 如 果 输 入 图 像 是 32 像素 宽 、32 像素 高 ， 那 么 输出 图 像 的 宽度 和 高 度 将 更 
小 (如 16 像素 宽 、16 像素 高 )。 池 化 层 最 常见 的 设置 是 应 用 2 x2 过 滤器 ， 步 长 为 2。 这 
将 在 一 半 的 空间 维度 (宽度 和 高 度 ) 上 对 输入 空间 的 每 个 深度 切片 进行 下 采样 。 这 种 下 采 
样 操作 将 导致 75% 的 激活 被 丢弃 。 

池 化 层 没 有 参数 ， 却 有 额外 的 超 参数 。 该 层 不 涉及 参数 ， 因 为 它 是 计算 输入 空间 的 固定 函 
数 。 将 零 填 充 用 于 池 化 层 不 太 常 见 。 


4.2.7 ”全 连接 层 
使 用 该 层 计算 用 作 网 络 输出 类 别 的 分 数 (例如 网 络 末 端的 输出 层 )。 输 出 空间 的 维度 是 
[Lx1l1xM， 其 中 VX 是 正在 评估 的 输出 类 别 的 数量 。 对 于 之 前 讨论 的 CIFAR 数据 集 ， 由 于 
数据 集中 有 10 个 类 别 ，N 为 10。 该 层 所 有 神经 元 和 前 一 层 每 个 神经 元 之 间 都 有 连接 。 
全 连接 层 有 用 于 层 和 超 参 数 的 一 般 参 数 。 全 连接 层 对 输入 数据 量 执行 转换 ， 该 转换 是 输入 
空间 中 激活 和 参数 (神经 元 的 权重 和 偏 置 ) 的 函数 。 

多 个 全 连接 层 

有 一 些 CNN 架构 在 网 络 的 末端 使 用 多 个 全 连接 层 。 例 如 AlexNet， 它 有 两 个 

全 连接 层 ， 最 后 一 层 是 softmax 层 。 



























































4.2.8 CNN 的 其 他 应 用 

除了 普通 的 二 维 图 像 数 据 外 ，CNN 还 用 于 三 维 数据 集 。 下 面 是 一 些 其 他 应 用 的 例子 。 

。 MRI 数据 

三 维 形状 数据 

图 数据 

。 NLP 应 用 

CNN 的 位 置 不 变 特 性 在 这 些 领 域 已 被 证 明 是 有 用 的 ， 因 为 不 限制 手动 编码 的 特征 在 特征 向 
量 的 某 些 “人 位置” 出现 。 














4.2.9 CNN 列 表 
下 面 是 一 些 更 流行 的 CNN 结构 的 列表 。 
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。 LeNet 
一 最 早 成 功 的 CNN 架构 之 一 ; 


一 由 Yann Lecun 开发 ; 
一 最 初 用 于 读 取 图 像 中 的 数字 。 
。 AlexNet 
- 使 CNN 在 计算 机 视觉 领域 流行 ， 
一 由 Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton 开发 ; 
一 2012 年 度 ILSVRC 竞赛 冠军 。 
。 ZF Net 
一 2013 年 度 ILSVRC 竞赛 冠军 ; 
一 由 Matthew Zeiler 和 Rob Fergus 开发 ; 
一 引入 了 反 卷 积 网 络 的 可 视 化 概念 。 
。 GoogLeNet 
一 2014 年 度 ILSVRC 竞赛 冠军 ; 
一 ”由 Christian Szegedy 和 他 在 谷歌 的 团队 开发 ; 
一 代号 “Inception”， 有 22 层 。 
。 VGGNet 
一 2014 年 度 ILSVRC 竞赛 亚军 ; 
一 由 Karen Simonyan 和 Andrew Zisserman 开发 ; 
一 证 明 网 络 深度 是 获得 良好 表现 的 关键 因素 。 
。 ResNet 
-在 非常 深 的 网 络 上 训练 (最 多 1200 层 ) ， 
一 2015 年 度 ILSVRC 竞赛 分 类 任务 第 一 名 。 























4.2.10 “小 结 


由 于 对 图 像 数据 专门 特征 提取 的 需求 ，CNN 得 以 发 展 ， 无 论 层 在 哪 列 “ 漫 游 "， 都 能 很 好 
地 找到 特征 。 了 解 过 卷 积 层 、 池 化 层 和 常规 全 连接 层 是 如 何 协同 工作 来 对 图 像 进行 分 类 
的 ， 下 面 转向 一 个 擅长 对 时 间 域 建 模 的 神经 网 络 架构 : RNN。 


4.3 RNN 


RNN 是 前 馈 神经 网 络 家 族 的 一 员 。 不 同 于 其 他 前 馈 网 络 ， 它 在 时 间 步 上 发 送信 息 的 能 力 不 
同 。 下 面 是 著名 研究 员 Juergen Schmidhuber 对 RNN 的 一 个 有 趣 的 解释 。 


( RNN ) 允许 并 行 和 顺序 计算 ， 原 则 上 可 以 计算 传统 计算 机 计算 的 任何 内 容 。 然 
而 ， 与 传统 计算 机 不 同 ，RNN 类 似 于 人 脑 ， 人 脑 是 一 个 由 相连 神经 元 组 成 的 大 
型 反馈 网 络 ， 神 经 元 终 其 一 生 以 某 种 方式 将 感觉 输入 流转 换 成 一 系列 有 用 的 运动 
输出 。 大 脑 是 一 个 伟大 的 榜样 ， 它 能 解决 当前 机 器 无 法 解决 的 许多 问题 。 
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在 历史 上 ， 这 些 网 络 很 难 训练 ， 但 最 近 研 究 的 进展 〈 调 优 、 网 络 架构 、 并 行 计算 和 GPU ) 
使 它们 对 实践 者 更 友好 了 。 

RNN 从 输入 向 量 序列 中 提取 每 个 向 量 ， 并 且 一 次 对 一 个 向 量 建 模 。 这 使 得 网 络 在 输入 向 量 
窗口 上 对 每 个 输入 向 量 建 模 的 同时 ， 还 能 保持 状态 。 对 时 间 维 度 建 模 是 RNN 的 标志 性 特征 。 


4.3.1 时间 维 度 建 模 

RNN 被 视 作 图 灵 完 备 的 ， 可 以 模拟 任意 ( 带 权重 的 ) 程序 。 如 果 把 神经 网 络 看 作对 函数 的 
优化 ， 可 以 把 RNN 看 作 “ 对 程序 的 优化 ”。RNN 非常 适合 对 由 涉及 值 之 间 时 间 依 赖 的 向 
量 组 成 的 输入 或 输出 的 函数 建 模 。RNN 通过 在 网 络 中 创建 循环 〈 即 名 称 中 “循环 ”部 分 的 
由 来 ) 来 对 数据 的 时 间 维 度 建 模 。 

1. 迷失 在 时 间 中 
许多 分 类 工具 (支持 向 量 机 、 逻 辑 回归 和 常规 前 馈 网 络 ) 在 没有 对 时 间 维 度 建 模 且 假设 是 
独立 的 情况 下 ， 已 被 成 功 应 用 。 这 些 工 具 的 其 他 变 体 通 过 对 输入 的 请 动 窗口 (例如 ， 上 一 
个 、 当 前 的 和 下 一 个 输入 一 起 作为 单个 输入 向 量 ) 建 模 ， 来 捕获 时 间 动 态 。 

这 些 工具 的 缺点 是 假设 模型 输入 之 间 的 时 间 连 接 是 独立 的 ， 那 么 模型 就 不 能 捕获 长 期 的 时 
间 依 赖 。 请 动 窗口 技术 的 窗口 宽度 有 限 ， 不 能 捕获 大 于 固定 窗口 的 效应 。 例 如 对 会 话 工作 
方式 建 模 ， 并 且 让 机 器 理解 在 会 话 随 着 时 间 推 移 时 如 何以 一 致 的 方式 回复 。 一 个 训练 有 素 
的 RNN 可 以 完成 艾 伦 .图 灵 著 名 的 图 灵 测 试 ， 骗 过 人 类 ， 让 人 以 为 在 和 真人 说 话 。 

2. 连接 中 的 时 间 反 馈 和 循环 

RNN 在 连接 中 可 以 具有 环 路 ， 这 使 得 它 能 够 在 时 间 序 列 、 语 言 、 音 频 和 文本 等 领域 对 时 间 
行为 建 模 时 提高 准确 度 。 

输出 层 到 隐藏 层 的 连接 的 说 明 

在 实践 中 ， 这 种 连接 方案 较 少 ，DL4J 也 不 使 用 这 个 方案 。 但 本 书 认为 了 解 
这 种 变 体 很 重要 ， 每 个 循环 层 中 常 有 从 一 个 时 间 步 到 下 一 个 时 间 步 的 神经 元 


连接 。 
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这 些 域 中 的 数据 本 质 上 是 有 序 的 、 上 下 文敏 感 的 ， 后 面 的 值 取 决 于 先前 的 值 。RNN 的 线路 
能 够 捕获 这 些 时 间 效 应 ， 进 行 反 馈 。RNN 架构 常用 于 时 间 序 列 域 的 应 用 。 

RNN 包括 一 个 反馈 环 路 ， 用 于 从 不 同 长 度 的 序列 中 学 习 。RNN 包含 用 于 时 间 步 之 间 连 接 
的 额外 参数 矩阵 ， 这 些 时 间 步 被 使 用 / 训练 以 捕获 数据 中 的 时 间 关 系 。 

RNN 通过 训练 生成 序列 ， 其 中 每 个 时 间 步 的 输出 基于 当前 输入 和 在 所 有 先前 时 间 步 的 输 
人 入。 普通 的 RNN 通过 一 种 被 称 为 基于 时 间 的 反 向 传播 (BPTT) 的 算法 计算 梯度 。 本 章 稍 
后 详细 介绍 BPTT。 

3. 序列 和 时 间 序 列 数据 

在 模型 需要 输出 向 量 序列 的 行业 的 许多 问题 领域 会 见 到 序列 数据 。 

图 像 字幕 
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。 语音 合成 
。 音乐 生成 
。 玩 电子 游戏 
。 语言 建 模 
。 字符 级 文本 生成 模型 
在 其 他 领域 ， 需 要 输入 向 量 的 序列 有 : 
。 时 间 序列 预测 
。 视频 分 析 
。 音乐 信息 检索 
同时 需要 输入 和 输出 向 量 序列 的 领域 有 : 
自然 语言 翻译 
。 参与 对 话 
。 机 器 人 控制 
与 其 他 深度 网 络 相 比 ，RNN 可 以 对 以 下 类 型 的 输入 建 模 ( 非 固定 输入 )。 
。 非 国定 计算 步 又 。 
。 非 固定 输出 大 小 。 
它 可 以 操作 向 量 序列 ， 例 如 视频 帧 。 
RNN 的 一 个 重要 特点 是 它 以 独特 的 方式 处 理 输入 和 输出 。 
4. 理解 模型 的 输入 和 输出 
传统 的 机 器 学 习 基于 单个 固定 大 小 的 输入 向 量 进行 操作 。 传 统 建 模 活动 中 ， 固 定 输入 大 小 
和 固定 输出 大 小 的 从 输入 到 输出 的 关系 很 常见 。 
这 通常 是 用 于 构建 图 像 分 类 或 列 式 数据 分 类 器 模型 的 模式 。 
RNN 将 输入 动态 改变 为 包括 多 个 输入 向 量 ， 每 个 时 间 步 具有 -一 个 向 量 ， 并 且 每 个 向 量 可 以 
有 多 列 。 下 面 的 列表 是 RNN 如 何 操作 输入 和 输出 向 量 序列 的 例子 。 
。 一 对 多 : 序列 输出 。 例 如 为 图 像 配 字幕 的 操作 以 图 像 为 输入 ， 输 出 单词 序列 。 
多 对 一 :序列 答 入。 例如 对 给 定 句子 的 输入 进行 情感 分 析 。 
多 对 多 : 例如 视频 分 类 ， 标 记 每 一 帧 。 
研究 过 输入 和 输出 数据 的 不 同类 型 ， 下 面 介绍 这 些 输入 数据 的 表示 方法 。 


4.3.2 三维 空间 输入 

RNN 的 输入 比 标准 机 器 学 习 模 型 输入 涉及 更 多 维度 ， 它 在 概念 上 与 CNN 相似 。 输 入 有 以 
下 三 个 维度 . 

(1) 小 批量 大 小 ; 

(2) 每 个 时 间 步 向 量 的 列 数 ; 

(3) 时 间 步 的 数量 。 
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前 馈 网 络 数据 循环 网 络 数据 














图 4-17: 普通 输入 向 量 与 RNN 输入 的 比较 


小 批量 的 大 小 是 我 们 想 建 模 的 每 个 批量 输入 记录 的 数量 (单个 源 实体 的 时 间 序 列 点 集合 )。 
列 的 数量 与 普通 输入 向 量 中 找到 的 传统 特征 列 的 数量 匹配 。 时 间 步 的 数量 是 随 着 时 间 变 化 
而 产生 的 输入 向 量 的 变化 ， 这 是 输入 数据 的 时 间 序 列 方面 。 基 于 前 面 所 讲 的 术语 ， 时 间 步 
的 数量 大 于 1 意味 着 输入 和 输出 架构 是 多 维 的 。 

不 均匀 的 时 间 序 列 与 掩 码 

之 前 介绍 了 RNN 的 输入 ， 除 了 输入 向 量 的 特征 外 ， 还 有 时 间 步 的 概念 。 图 4-18 提供 了 可 
视 化 表示 。 















































时 间 步 
EE | 
albumin albumin 0S 
昌 alp 雯 alp 0.1 0.2 
EE p> 四 alt 0.9 
ast ast 0.4 











4-18: RNN 输入 的 时 间 步 


每 个 列 值 可 能 不 会 在 每 个 时 间 步 上 都 出 现 ， 特 别 是 将 描述 性 数据 (例如 静态 数据 库 表 的 
列 ) 和 时 间 序 列 数 据 (例如 ICU 患者 每 分 钟 心跳 的 测量 ) 混合 的 情况 。 对 于 “参差 不 齐 ” 
的 时 间 步 的 值 ， 需 要 使 用 掩 码 来 让 DL4J 知道 真实 数据 在 向 量 中 的 位 置 。 我 们 通过 为 掩 码 
提供 额外 的 矩阵 来 完成 此 操作 ， 该 矩阵 表示 输入 数据 的 时 间 步 具有 至 少 一 列 ， 如 图 4-19 
所 示 。 


























0.5 


albumin 
单一 输出 alp (9 
alt 0.9 
( 列 + 时 间 步 ) 

ast 
| 
| 
| 

输入 掩 码 - 








| 
(只 包含 时 间 步 ) | 
| 


图 4-19: 特定 的 时 间 步 掩 码 
第 3 章 提供 了 一 个 如 何 设置 这 些 掩 码 的 代码 示例 。 


4.3.3 为 什么 不 是 马尔 可 夫 模 型 


在 处 理 模 型 中 的 时 间 维 度 时 ， 可 以 把 马尔 可 夫 模 型 看 作 一 种 选择 ， 它 是 另 一 类 广泛 用 于 对 
序列 建 模 的 机 器 学 习 模 型 。 其 局 限 在 于 ， 随 着 上 下 文 窗口 大 小 的 增加 ， 这 些 模型 最 终 在 
对 长 期 依赖 建 模 时 变 得 在 计算 上 不 实用 。 


RNN (连接 模型 ) 优 于 马尔 可 夫 模 型 (和 其 他 时 间 窗 口 有 限 的 模型 )， 因 为 它 可 以 捕获 输 
入 数据 中 的 长 期 依赖 。 它 能 够 实现 这 一 点 ， 是 因为 其 隐藏 状态 从 任意 长 的 上 下 文 窗口 捕获 
信息 ， 不 像 其 他 技术 那样 受到 限制 。 此 外 ， 它 可 以 建 模 的 状态 数量 由 节点 的 隐藏 层 表示 ， 
并 且 这 些 状 态 随 层 中 节点 数量 呈 指 数 式 增 长 。 这 使 得 RNN 在 捕获 许多 输入 向 量 上 时 间 维 
度 的 大 量 相关 信息 方面 异常 优秀 。 



































RNN 、 隐 藏 层 和 状态 数量 
如 果 输 入 仅 是 二 元 值 (0, )， 那 么 网 络 可 以 表示 2 个 状态 ， 其 中 WN 是 隐藏 层 中 的 节点 
数 。 如 果 输 出 是 64 位 实数 ， 这 些 节点 的 单个 隐藏 层 可 以 表示 2% 个 不 同 状态 。 
这 些 网 络 的 训练 能 力 仅 随 隐藏 节点 数 呈 二 次 增长 ， 而 网 络 的 表达 能 力 则 随 隐 藏 节点 数 
呈 指 数 式 增长 。 











4.3.4 ”常见 的 RNN 架 构 

RNN 是 前 馈 神 经 网 络 的 超 集 ， 但 增加 了 循环 连接 的 概念 。 这 些 连 接 (或 循环 边 ) 跨 相 邻 时 
间 步 (如 前 一 时 间 步 )， 给 模型 带 来 时 间 的 概念 。 传 统 的 连接 不 包含 RNN 中 的 环 ， 而 循环 
连接 可 以 形成 环 ， 原 始 的 神经 元 在 未 来 的 时 间 步 可 以 连接 回 其 本 身 。 
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RNN 的 结构 与 时 间 步 

在 循环 网 络 中 发 送 输入 的 每 个 时 间 步 中 ， 沿 着 循环 边缘 接收 输入 的 节点 从 当前 输入 向 量 和 
网 络 先前 状态 的 隐藏 节点 接收 输入 的 激活 值 。 

对 于 给 定 的 时 间 步 ， 从 隐藏 状态 计算 输出 。 前 一 时 间 步 的 输入 向 量 可 以 通过 循环 连接 影响 
当前 时 间 步 的 输出 。 

可 以 把 这 些 特殊 的 循环 神经 元 层 串联 起 来 ， 建 立 更 好 的 模型 。 将 前 一 层 的 输出 与 下 一 层 的 
输入 连接 ， 就 像 前 馈 多 层 神经 网 络 的 连接 方式 一 样 。 























梯度 消失 问题 
RNN 有 一 个 已 知 的 “梯度 消失 问题 "”。 当 梯度 变 得 太 大 或 太 小 时 ， 这 个 问题 就 会 出 现 ， 
使 得 难以 对 输入 数据 集结 构 的 长 期 依赖 性 (10 个 时 间 步 或 更 多 ) 建 模 。 解 决 这 一 问题 
最 有 效 的 方法 是 使 用 DL4J 提供 的 RNN 的 LSTM 变 体 。 











4.3.5 LSTM 网 络 
LSTM 网 络 是 RNN 最 常用 的 变 体 ， 由 Hochreiter 和 Schmidhuber 于 1997 年 发 明 。 
LSTM 的 关键 组 件 是 记忆 单元 和 门 (包括 遗忘 门 ， 也 是 输入 门 )。 记 忆 单 元 的 内 容 由 输入 
门 和 遗忘 门 调整 。 假 设 这 两 个 门 都 关闭 ， 那 么 记忆 单元 的 内 容 在 一 个 时 间 步 和 下 一 个 时 间 
步 之 间 保 持 不 变 。 门 结构 允许 信息 跨 多 个 时 间 步 依然 得 以 保留 ， 而 且 也 允许 梯度 跨 多 个 时 
间 步 传递 。 这 使 得 LSTM 模型 克服 了 大 多 数 RNN 模型 都 会 发 生 的 梯度 消失 问题 。 
1. LSTM 网 络 的 特性 
LSTM 有 以 下 良好 的 特性 。 
更 好 的 更 新 方程 
更 好 的 反 向 传播 
下 面 是 LSTM 的 一 些 用 途 的 例子 。 
。 生成 句子 〈 例 如 字符 级 语言 模型 ) 
时 间 序 列 分 类 
。 语音 识别 


。 手写 识别 


























复 调 音乐 建 模 
近年 来 ，LSTM 和 双向 RNN (BRNN) 架构 在 以 下 任务 上 显示 了 行业 领先 水 准 。 
图 像 字幕 





。 语言 翻译 
， 手写 识别 


LSTM 网 络 由 许多 相连 的 LSTM 单元 组 成 ， 在 学 习 过 程 中 表现 良好 。 








关于 LSTM 训练 复杂 度 的 说 明 
前 向 和 反 向 传递 操作 的 计算 复杂 度 随 输入 序列 的 时 间 步 的 数量 线性 增 减 。 





下 面 几 节 将 介绍 LSTM 的 架构 和 组 件 。 
2. LSTM 网 络 的 架构 

为 了 更 好 地 理解 LSTM 网 络 中 单元 与 层 之 间 复 杂 的 连接 ， 先 回顾 之 前 提 到 的 一 些 概念 。 
前 面 的 章节 介绍 了 前 馈 多 层 神 经 网 络 的 概念 ， 如 图 4-20 所 示 。 







































































输入 值 输入 层 隐藏 层 1 隐藏 层 2 输出 





泊 








图 4-20: 前 馈 多 层 神 经 网 络 架构 

















如 果 将 图 4-20 所 示 的 网 络 的 每 层 作 为 单个 布点 以 扁平 方式 表示 出 来 ， 效 果 如 图 4-21 所 示 。 


-0O-@_@ 0O- 


输入 值 输入 层 隐藏 层 ] 隐藏 层 2 输出 层 输出 值 












































图 4-21: 前 馈 多 层 网 络 可 视 化 








RNN 引入 了 一 种 连接 方式 ， 以 隐藏 层 神 经 元 的 输出 为 输入 与 同一 隐藏 层 的 神经 元 连接 。 遂 
过 这 种 循环 连接 ， 可 以 从 前 一 时 间 步 获取 输入 ， 作 为 传 入 神经 元 信息 的 一 部 分 。 


图 4-22 是 将 图 4-21 所 示 的 网 络 扁平 化 展开 ， 可 以 更 容易 地 看 清楚 LSTM 中 的 循环 连接 。 
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输入 层 输出 











MU 











4-22: 在 隐藏 层 节 点 上 显示 循环 连接 


图 4-23 通过 对 图 4-22 的 网 络 图 的 “展开 ”有 助 于 更 直观 地 理解 这 一 点 ， 图 中 显示 了 信息 
是 如 何以 前 馈 方 式 在 网 络 中 “流动 ”并 “跨越 时 间 ” 的 。 


-O-@_@_O 
-0@ 00 
































? 
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| | 
| 
输入 层 隐藏 层 1 隐藏 层 2 输出 层 




















图 4-23: 沿 时 间 轴 展开 的 递归 神经 


下 面 介绍 ，LSTM 网 络 通过 循环 连接 比 传统 RNN 传递 更 多 信息 。 
3.LSTM 单 元 

RNN 层 的 单元 是 传统 人 工 神经 元 的 变 体 。 

每 个 LSTM 单元 都 有 两 类 连接 。 


与 前 一 个 时 间 步 的 连接 (这 些 单元 的 输出 )。 

与 前 一 层 的 连接 。 
LSTM 网 络 中 的 记忆 单元 是 使 网 络 能 够 随时 间 保 持 状态 的 核心 概念 。LSTM 单元 的 主体 也 
称 LSTM 块 ， 如 图 4-24 所 示 。 
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块 输出 





Pn 





























图 例 
有 权重 连接 
有 了 时间 延迟 的 连接 
分 支点 
乘法 
所 有 输入 的 和 
门 激活 函数 
(总 是 sigmoid) 
输入 激活 函数 
(常用 tanh) 
输出 激活 函数 
(常用 tanh) 











4-24: LSTM 块 图 





以 下 是 LSTM 单元 的 组 件 。 
。 三 种 门 
一 输入 门 (输入 调制 门 ) 
一 遗忘 门 
- 输出 门 
。 块 输入 


。 记忆 单元 〈 恒 定 误差 转盘 ) 


。 输出 激活 函数 
。 频 探 孔 连接 


以 下 三 个 门 单元 ， 用 于 保护 线性 单元 免 受 误导 信号 影响 。 
。 输入 门 保护 单元 免 受 无 关 的 输入 事件 影响 。 
。 遗忘 门 帮助 单元 忘记 以 前 的 记忆 内 容 。 


。 输出 门 在 LSTM 单元 的 输出 里 暴露 (或 不 暴露 ) 记忆 单元 的 内 容 。 
LSTM 块 的 输出 与 LSTM 块 的 输入 和 所 有 门 循环 连接 。LSTM 单元 中 输入 门 、 








出 门 使 用 sigmoid 激活 函数 进行 [0, 1] 限制 。LSTM 块 的 输入 和 输出 激活 函数 


个 tanh 激活 函数 。 


关于 遗忘 门 的 说 明 





忘 门 和 输 
常 ) 是 一 


1.0 的 激活 输出 意味 着 “ 记 住 一 切 ”， 而 0.0 的 激活 输出 意味 着 “遗忘 一 切 ”。 


从 不 同 的 角度 看 ， 遗 忘 门 更 好 的 名 称 可 
考虑 到 这 一 点 ， 通 常 将 遗忘 门 的 偏 置 初始 化 为 大 的 值 ， 以 便 学 习 长 其 
(在 DL4J 中 默认 的 大 值 ==1.0)。 





“ 记 住 门 ”! 
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4-25 列 晶 























了 LSTM 层 前 向 传递 的 向 量 公 式 。 图 中 使 用 了 Greff 等 的 表示 方法 。 
z=g(Wx'+R.y™ +b.) 块 输入 
i =o(Wx'+ Ry +p,Oc™ +b,) 输入 门 
f'=oWx' +Ry™ +pOc™ +b,) 遗忘 门 
c=iOz +f'Oc™! 单元 状态 
0'=o(W,x’+ Ry™ +p,Oc'+b,) 输出 门 
y=0'Oh(e) 块 输出 








4-25: LSTM 层 前 向 传递 的 向 量 公式 











表 4-1 列 出 了 图 4-25 中 方程 的 各 个 变量 。 
表 4-1: LSTM 向 量 公式 的 变量 说 明 

变量 名 说 明 

x 时 间 上 的 输入 向 量 

W 和 矩形 输入 权重 矩阵 

R 平方 循环 权重 矩阵 

Pp 突 探 孔 权 重 向 量 

b 偏 置 向 量 

自 循环 连接 的 固 











定 权 重 ( 除 了 调制 时 ) 的 值 为 1.0， 以 克服 梯度 消失 问题 。 这 个 核心 单元 








使 得 LSTM 单元 能 够 发 现 序 列 中 范围 更 大 的 事件 。 这 些 事件 可 以 跨越 最 多 1000 个 离散 的 
时 间 步 ， 相 比 之 下 ， 旧 的 循环 架构 只 能 对 跨越 10 个 时 间 步 左右 的 事件 建 模 。 











关于 更 多 的 LSTM 变 体 











请 参阅 论文 “LSTM: A Search Space Odyssey”。 








门 控制 的 自 适 应 时 间 常 数 ) 
但 它 计 算 和 实现 起 来 更 简单 。 


门 控 循环 单元 (GRU) 

与 LSTM 类 似 的 另 一 个 循环 单元 是 GRU。GRU 具有 重 置 门 和 更 新 门 ， 类 似 于 LSTM 
单元 中 的 遗忘 门 / 输 入 门 。 它 们 的 主要 区 别 在 于 ，GRU 仅 使 用 泄漏 集成 (但 有 由 更 新 
来 完全 暴露 其 记忆 内 容 。GRU 受到 了 LSTM 单元 的 启发 ， 








4. LSTM 层 
基本 层 接 受 输入 向 量 x 〈 非 固定 ) 并 输出 y。 输 出 y 受 输入 x 和 所 有 输入 历史 的 影响 。 该 
层 通过 循环 连接 ， 受 到 输入 历史 的 影响 。RNN 有 一 些 内 部 状态 ， 每 当 输入 一 个 向 量 到 该 层 
时 ， 状 态 就 会 被 更 新 。 状 态 由 单个 隐藏 向 量 组 成 。 

















5. 训练 

LSTM 网 络 使 用 监督 学 习 更 新 网 络 中 的 权重 。 在 一 个 向 量 序 列 中 ， 它 一 次 训练 一 个 输入 向 
量 。 向 量 为 实 值 ， 是 输入 节点 的 激 话 值 序列 。 每 个 非 输入 单元 在 任何 给 定 的 时 间 步 计算 其 
当前 激活 值 。 该 激活 值 被 计算 为 接收 连接 的 所 有 单元 激活 值 加 权 和 的 非 线 性 函数 。 
对 于 输入 序列 中 的 每 个 输入 向 量 ,误差 等 于 所 有 目标 信号 与 网 络 计算 相应 激活 值 的 偏差 之 
和 。 下 面 介绍 环 神经 网 络 的 反 向 传播 变 体 BPTT， 包 括 LSTM 神经 网 络 。 

6. BPTT 和 截断 BPTT 

RNN 的 训练 计算 成 本 高 ， 传 统 上 选择 使 用 BPTT。 


BPTT 与 标准 反 向 传播 基本 相同 ， 应 用 链 式 法 则 计算 基于 网 络 的 连接 结构 的 
导数 (梯度 )。 从 某 种 意义 上 说 ，BPTT 是 穿越 时 间 的 ， 其 中 一 些 梯度 / 误差 
言 号 也 将 从 未 来 的 时 间 步 流 回 当前 的 时 间 步 ， 而 不 仅仅 是 从 上 面 的 层 (如 标 
准 反 向 传播 中 发 生 的 )。 

















当 循 环 网 络 处 理 有 许多 时 间 步 的 长 序列 时 ， 推 荐 使 用 截断 BPTT。 截 断 BPTT 降低 了 RNN 
中 更 新 每 个 参数 的 计算 复杂 度 。 








RNN 与 反 向 传播 


在 长 度 为 1000 的 序列 上 计算 RNN 的 梯度 与 在 有 1000 层 的 多 层 感知 器 网 络 上 进行 前 
向 和 反 向 传递 的 计算 成 本 相同 。 











执行 更 频繁 的 参数 更 新 会 加 快 RNN 的 训练 。 当 输入 序列 超过 几 百 个 时 间 步 时 ， 建 议 使 用 
截断 BPTT。 


为 了 更 好 地 理解 截断 BPTT 所 涉及 的 概念 ， 设 想 当 训 练 一 个 长 度 为 12 (时 间 步 ) 的 时 间 序 
列 输入 的 网 络 时 会 发 生 什 么 。 在 这 种 情况 下 ， 需 要 前 向 传递 12 步 ， 然 后 计算 网 络 的 误差 ， 
之 后 ， 如 图 4-26 所 示 ， 反 向 传递 12 个 时 间 步 。 


站 时 中 中 中 4 


前 向 传递 12 个 时 间 步 ) 
反 向 传递 〈12 个 时 间 步 ) 




















> 




















参数 更 新 ，1 个 中 的 1 个 











4-26: 标准 BPTT 








在 图 中 ，12 个 时 间 步 对 于 训练 过 程 并 不 是 那么 困难 。 当 模型 的 时 间 序 列 数据 有 几 百 个 甚至 更 
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多 的 时 间 步 时 ， 训 练 变 得 更 加 困难 。 如 果 时 间 序 列 输 入 的 时 间 步 数 是 1000， 那 么 标准 反 向 传 
播 训练 对 于 每 个 前 向 传递 和 反 向 传递 (对 于 每 个 单独 的 参数 更 新 ) 都 需要 1000 个 时 间 步 。 计 
算 成 本 很 快 就 变 高 ， 这 就 是 为 什么 考虑 其 他 训练 方法 ， 如 BPTT 和 截断 BPTT 的 原因 。 


截断 BPTT 将 前 向 和 反 向 传递 分 割 为 较 小 的 操作 。 图 4-27 所 示 的 截断 BPTT 使 用 了 较 小 的 
前 向 传递 ， 以 及 同样 小 的 反 向 传递 ， 然 后 更 新 预期 的 参数 。 这 个 较 小 的 传递 大 小 是 用 户 配 
置 的 超 参 数 。 在 图 中 可 以 看 到 截断 BPTT 的 传递 大 小 是 4 个 时 间 步 。 
































9 下 9 人 人 人 人们 9 人 人 



























































专递 (4 个 时 间 步 ) 前 向 传递 (4 个 时 间 步 ) 问 传递 〈4 个 时 间 步 ) 
反 向 传递 〈4 个 时 间 步 ) 反 向 传递 〈4 个 时 间 步 ) 反 向 传递 〈4 个 时 间 步 ) 
参数 更 新 : 3 个 中 的 第 1 个 参数 更 新 : 3 个 中 的 第 2 个 参数 更 新 ， 3 个 中 的 第 3 个 





4-27: 截断 BPTT 


截断 BPTT 是 目前 训练 RNN 最 实用 的 方法 。 与 常规 的 BPTT 相 比 ， 使 用 截断 BPTT， 计 算 
负担 更 小 ， 却 可 以 捕获 更 长 的 依赖 。 


标准 BPTT 和 截断 BPTT 的 总 体 复杂 度 相 似 ， 并 且 在 训练 期 间 需要 相同 数量 的 时 间 步 。 然 
而 对 于 计算 量 相近 的 工作 ， 却 可 以 得 到 更 多 的 参数 更 新 〈 尽 管 每 个 参数 更 新 都 有 一 些 开 
销 )。 与 所 有 近似 方法 一 样 ， 使 用 截断 BPTT 时 有 轻微 的 缺点 ， 堆 断 BPTT 中 学 到 的 依赖 的 
长 度 最 终 可 能 比 完整 的 BPTT 算法 的 结果 短 。 在 实践 中 ， 只 要 截断 BPTT 长 度 被 正确 设置 ， 
这 种 速度 上 的 取舍 通常 是 值得 的 。 


4.3.6 ”特定 领域 应 用 与 混合 网 络 


如 前 所 述 ，RNN 执行 许多 特定 领域 的 应 用 ， 如 语音 转录 到 文本 、 机 器 翻译 和 手写 文本 的 生 
成 。RNN 已 被 证 明 擅 长 计算 机 视觉 领域 ， 可 以 实现 以 下 功能 


帧 级 视频 分 析 ; 

为 图 像 加 字幕 

为 视频 加 字幕 
。 视觉 问题 回答 。 
使 用 RNN 研究 计算 机 视觉 的 另 一 个 新 兴 领 域 是 一 个 通过 每 次 只 处 理 一 小 块 区 域 来 从 图 像 
中 提取 信息 的 网 络 ， 它 被 称 为 “视觉 注意 ”的 循环 模型 。 这 种 模型 能 够 高 效 地 处 理 混 有 多 
个 对 象 的 图 像 ，CNN 很 难 对 这 样 的 图 像 进行 分 类 。 这 些 网 络 与 CNN 结合 使 用 ， 用 于 对 原 
始 感知 器 和 RNN 的 时 域 建 模 。 
另 一 个 值得 注意 的 CNN+RNN 混合 网 络 由 Andrej Karpathy 和 李 飞 飞 创建 ， 能 够 生成 图 像 
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及 由 自然 语言 描述 其 区 域 的 网 络 。 这 种 模型 使 用 图 像 及 相应 句子 的 数据 集 ， 能 够 生成 图 像 
的 标题 ， 如 图 4-28 所 示 。 














一 束 红 平板 一 杯 加 了 冰 块 
色 的 花 “电脑 瓶 水 和 柠檬 的 水 






































图 4-28: 使 用 CNN/RNN 混合 模型 标记 图 像 


这 类 网 络 是 CNN 和 BRNN 的 结合 。 


4.4 递归 神经 网 络 


递归 神经 网 络 类 似 于 RNN， 可 以 处 理 可 变 长 度 的 输入 。 二 者 的 主要 区 别 在 于 RNN 能 对 训 
练 数 据 集 的 层次 结构 建 模 。 图 像 通常 是 一 个 由 许多 对 象 组 成 的 场景 。 解 构 场景 往往 是 一 个 
令 人 感 兴趣 的 问题 领域 ， 却 不 是 一 件 简单 的 事情 。 这 种 解构 的 递归 特性 要 求 不 仅 要 识别 场 
景 中 的 对 象 ， 还 要 识别 对 象 与 场景 是 如 何 关联 的 。 


4.4.1 ”网络 架构 


递归 神经 网 络 结构 由 共享 权重 矩阵 和 二 又 树 结构 组 成 ， 这 个 二 又 树 结构 允许 递归 网 络 学 习 
单词 的 不 同 序列 或 图 像 的 不 同 部 分 。 它 是 一 个 有 用 的 句子 和 场景 解析 器 。 使 用 反 向 传递 的 
递归 神经 网 络 的 变 体 被 称 为 通过 结构 的 反 向 传递 (BPTS)。 前 馈 传 递 是 自 下 而 上 ， 而 反 向 
传播 是 自 上 而 下 的 。 这 里 把 目标 视 为 树 的 顶端 ， 而 输入 是 底部 。 


4.4.2 ”递归 神经 网 络 的 变 体 

递归 神经 网 络 有 几 种 变 体 。 一 种 是 递归 自动 编码 器 。 就 像 它 的 前 馈 表 末 一 样 ， 递 归 自 动 编 
码 器 学 习 重 建 输 入 。 在 NLP 的 场景 中 ， 它 学 习 重 建 上 下 文 。 半 监督 递归 自动 编码 器 在 每 个 
上 下 文学 习 某 些 标签 的 似 然 值 。 

另 一 种 变 体 是 被 称 为 “递归 神经 张 量 网 络 ” 的 监督 神经 网 络 ， 它 在 树 的 每 个 节点 计算 监督 
目标 。“ 张 量 ”意味 着 它 计 算 梯度 的 方式 稍 有 不 同 ， 利 用 张 量 (三 维 或 更 多 维 的 矩阵 ) 中 
信息 的 另 一 个 维度 ， 在 每 个 节点 容纳 更 多 的 信息 。 
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4.4.3 ”递归 神经 网 络 的 应 用 

递归 和 RNN 共享 许多 相同 的 用 例 。RNN 传统 上 用 于 NLP， 因 为 它 与 二 又 树 、 上 下 文 和 
基于 自然 语言 的 解析 器 有 关 。 例 如 ， 成 分 解析 器 能 够 将 一 个 句子 分 解 成 二 又 树 ， 并 根据 该 
句子 的 语言 属性 对 其 分 割 。 在 使 用 递归 神经 网 络 时 ， 强 制 使 用 构建 树 结构 (通常 是 成 分 解 
析 ) 的 解析 器 。 

递归 神经 网 络 可 以 恢复 图 像 或 句子 等 数据 集中 的 粒度 结构 和 高 层次 结构 。 其 应 用 包括 : 

图 像 场景 分 解 

。 NLP 

。 音频 到 文本 转录 

实践 中 看 到 的 两 个 特定 的 网 络 配置 是 递归 自动 编码 器 和 递归 神经 张 量 。 使 用 递归 自动 编码 
器 将 句子 分 解 成 用 于 NLP 的 片段 。 使 用 递归 神经 张 量 将 图 像 分 解 为 它 的 组 成 对 象 ， 并 对 场 
景 中 的 对 象 标 注 语 义 。 

递归 神经 网 络 趋向 于 更 快 地 训练 ， 因 此 通常 将 它 用 在 与 时 间 更 相关 的 应 用 中 ， 但 它 已 被 证 
明 在 基于 NLP 的 领域 ， 如 情感 分 析 中 也 表现 得 很 好 。 


4.5 小结 与 讨论 
本 章 回 顾 了 最 新 的 深度 学 习 的 主要 架构 。 这 些 架 构 总 结 和 归 类 如 下 。 


。 要 生成 数据 (例如 图 像 、 音 频 或 文本 )， 我 们 将 使 用 : 
- GAN 
— VAB 
- RNN 

。 对 图 像 建 模 ， 我 们 可 以 使 用 : 
- CNN 
- DBN 

。 对 序列 数据 建 模 ， 我 们 可 以 使 用 : 
— RNN/LST™ 


接 下 来 将 展示 这 些 网 络 的 实际 代码 示例 ， 以 及 探讨 对 不 同类 型 神经 网 络 训 练 和 调 优 的 方 
法 。 第 5 章 将 展示 这 些 概念 在 API 示例 中 是 如 何 结合 的 ， 我 们 将 在 例子 中 实践 DL4J 深度 
学 习 库 。 在 开始 这 些 例子 之 前 ， 首 先 讨 论 一 些 常 见 的 有 关 深 度 学 习 的 话题 。 


4.5.1 ”深度 学 习 会 使 其 他 算法 过 时 吗 


围绕 识 度 学 习 是 否 使 其 他 建 模 算法 过 时 的 争论 ， 在 互联 网 的 论坛 中 出 现 过 很 多 次 了 。 现 在 
的 答案 是 “ 否 ”， 因 为 对 于 许多 更 简单 的 机 器 学 习 应 用 程序 ， 那 些 更 简单 的 算法 对 所 需 的 
模型 准确 度 来 说 表现 得 很 好 ， 像 逻辑 回归 这 样 的 模型 也 更 容易 使 用 。 因 此 在 做 决策 时 ， 需 
要 根据 领域 所 需 的 准确 度 来 衡量 投入 的 程度 。 然 而 ， 当 对 应 用 领域 了 解 很 少 ， 并 且 难 以 进 
行 高 级 手工 特征 构建 时 ， 深 度 学 习 算法 往往 表现 良好 。 


























































































































4.5.2 ”不同 的 问题 有 不 同 的 最 佳 方法 
总 的 说 来 ， 机 器 学 习 是 在 适当 的 情况 下 应 用 正确 的 方法 。 目 前 还 没有 达到 一 种 单一 技术 占 
主导 地 位 的 程度 ， 因 此 每 次 都 要 评估 问题 的 空间 和 数据 ， 以 找到 最 佳 模型 。 这 符合 “没有 
免费 午餐 定理 ”。 
没有 免费 午餐 定理 
“没有 免费 午餐 定理 ”指出 : 没有 一 种 模型 适用 于 所 有 问题 。 对 一 个 问题 的 
一 个 伟大 模型 的 假设 可 能 不 适用 于 另 一 个 问题 。 在 机 器 学 习 中 ， 尝 试 多 个 模 
型 并 找到 对 某 个 特定 的 问题 最 有 效 的 模型 很 常见 。 

















每 一 种 机 器 学 习 方 法 都 有 一 定 的 偏差 和 方差 。 模 型 越 接近 真实 的 底层 模型 ， 我 们 就 可 以 更 
好 地 用 学 习 算 法 来 完成 。 

理解 这 一 点 的 另 一 个 方式 是 从 实际 的 例子 来 考虑 它 。 如 果 数 据 明 显 是 线性 的 ， 如 可 视 化 图 
形 表示 的 那样 ， 你 会 尝试 用 非 线 性 模型 (如 多 层 感知 器 ) 来 拟 合 数据 吗 ? 不 ， 你 可 能 以 更 
简单 的 方法 来 处 理 这 个 问题 ， 如 逻辑 回归 。 在 Kaggle 竞赛 中 ， 表 现 最 好 的 方法 因 题目 不 同 
而 不 同 。 然 而 当 深 度 学 习 不 能 获胜 时 ， 随 机 森林 和 集成 学 习 方 法 往往 是 胜 者 。 

输入 数据 集 的 大 小 可 能 是 另 一 个 影响 深度 学 习 是 否 适用 于 给 定 问题 的 因素 。 过 去 几 年 的 实 
验 结果 表明 ， 当 数据 集 足 够 大 时 ， 深 度 学 习 的 预测 能 力 最 好 。 这 意味 着 随 着 数据 集 大 小 的 
增加 ， 深 度 学 习 结 果 变 得 更 好 。 神 经 网 络 比 线性 模型 的 表示 能 力 更 强 ， 并 且 能 够 更 好 地 利 
用 数据 。 一 个 好 的 经 验 法 则 是 ， 对 于 至 少 有 5000 个 训练 输入 标签 的 例子 ， 实 践 者 应 该 训 
练 神 经 网 络 。 


4.5.3 ”什么 时 候 需 要 深度 学 习 
本 章 最 后 总 结 了 一 组 简单 的 规则 来 帮助 你 回答 这 个 问题 : 这 个 项 目 需要 使 用 深度 学 习 吗 ? 
1. 何 时 使 用 深度 学 习 
在 以 下 场景 ， 应 该 使 用 深度 学 习 。 
简单 的 模型 (逻辑 回归 ) 无 法 达到 用 例 所 需 的 准确 度 。 
。 在 图 像 、NLP 或 音频 处 理 中 有 复杂 的 模式 匹配 。 
有 高 维 数据 。 
在 向 量 中 有 时 间 维 度 (序列 )。 
2. 何 时 坚持 传统 的 机 器 学 习 
在 以 下 场景 ， 应 该 使 用 传统 的 机 器 学 习 模 型 。 
有 高 质量 、 低 维度 的 数据 ， 如 从 数据 库 导 出 的 列 式 数 据 。 
无 须 在 图 像 数 据 中 找到 复杂 的 模式 。 
当 数 据 不 完整 或 质量 差 时 ， 这 两 种 方法 得 到 的 结果 都 很 差 。 
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眼下 可 不 是 想 你 没有 带 什么 东西 的 时 候 。 想 想 你 用 手头 现 有 的 东西 能 做 什么 事 
儿 吧 。 





欧 内 斯 特 ' 海明威,《 老 人 与 海 》 


本 章 将 介绍 DL4J 中 可 用 的 工具 套件 ， 以 及 一 些 可 以 在 你 自己 的 项 目 中 使 用 的 实例 。 首 先 
讲解 如 何 将 特定 的 深度 网 络 映射 到 适合 的 问题 ， 之 后 深入 研究 库 中 的 许多 核心 例子 。 





有 关 DL4 安装 和 技术 支持 的 信息 ， 请 参阅 附录 G。 


5.1 将 深度 网 络 与 适合 的 问题 匹配 


第 4 章 介绍 了 深度 学 习 的 主题 ， 以 及 跟 对 输入 数据 进行 的 手工 特征 工程 相 比 ， 如 何 设计 网 
络 架 构 来 匹配 问题 。 本 章 将 展示 一 些 与 特定 类 型 的 问题 相 匹 配 的 深度 网 络 的 例子 ， 基 于 这 
个 目的 ， 本 章 具 体 介绍 以 下 应 用 : 


。 列 式 数据 建 模 

。 图 像 数据 建 模 

。 序列 /时 间 序 列 数据 建 模 
自然 语言 处 理应 用 


本 章 中 的 应 用 展示 了 从 第 1 章 就 一 直 在 构建 的 深度 网 络 的 概念 。 虽 然 没 有 第 4 章 提 到 的 架构 
的 所 有 示例 ， 但 我 们 编写 了 一 组 示例 演示 次 度 学 习 的 核心 概念 ， 这 样 你 就 可 以 轻松 地 将 大 多 











118 





数 示例 扩展 到 新 的 场景 。 首 先 看 一 下 之 前 书 中 介绍 的 与 网 络 架 构 正 确 匹 配 的 数据 类 型 。 


在 网 上 找到 示例 代码 


我 们 在 GitHub 代码 库 中 创建 了 示例 代码 的 分 支 。 即 使 DL 条 这 样 的 项 目 随 着 
时 间 而 发 展 ， 我 们 仍 为 你 提供 代码 的 快照 ， 这 些 代码 将 始终 与 本 书 匹配 。 

















5.1.1 列 式 数据 与 多 层 感 知 器 


常见 的 列 式 数据 具有 静态 的 结构 ， 它 是 DL4J 中 最 适合 经 典 的 多 层 感 知 器 神经 网 络 的 模型 。 
这 些 问 题 可 能 受益 于 较 小 的 特征 工程 ， 但 通常 网 络 可 以 自己 找到 数据 集 上 的 最 佳 权重 。 超 
参数 调 优 是 用 多 层 感 知 器 建 模 时 的 主要 挑战 之 一 。 第 6 章 将 介绍 多 种 技术 来 帮助 和 指导 你 
选择 超 参 数 。 


5.1.2 ”图像 与 CNN 


CNN 已 被 证 明 擅长 寻找 原始 图 像 数据 的 结构 。 历 史上 ， 图 像 建 模 领 域 主 要 由 大 量 预 处 理 技 
术 统 治 ， 它 们 将 输入 图 像 规整 并 转换 为 建 模 技术 能 更 好 处 理 的 形式 。 旋 转 或 缩放 的 微小 变 
化 使 图 像 处 理 成 为 一 项 艰巨 的 任务 。CNN 使 得 网 络 能 够 处 理 原始 的 图 像 数 据 ， 让 实践 者 集 
中 可 以 精力 调整 网 络 架构 。 本 章 稍 后 将 展示 用 CNN 对 手写 数字 进行 分 类 的 例子 。 

CNN 与 原始 图 像 数据 

经 过 辛勤 努力 得 到 的 列 式 数 据 ， 所 有 特征 都 缠 含 在 特定 的 列 中 。 历 史上 ， 当 
特征 不 在 模型 所 期 望 的 正确 的 “点 ”时 ， 机 器 学 习 建 模 将 变 得 相对 脆弱 。 

图 像 中 的 对 象 很 少 出 现在 我 们 希望 它们 出 现 的 地 方 ， 这 对 经 典 机 器 学 习 技 术 

的 特征 提取 阶段 而 言 是 一 个 巨大 的 挑战 。CNN 的 一 个 主要 优点 是 它们 能 够 
获取 原始 图 像 数 据 中 处 于 任意 形态 场景 中 的 对 象 ， 并 擅长 识别 特征 。 

























































































CNN 应 用 的 发 展 


CNN 应 用 继续 以 惊人 的 速度 发 展 。 虽 然 推荐 实践 者 从 解决 图 像 建 模 问题 开始 使 用 
CNN， 但 CNN 网 络 也 开始 应 用 于 文本 建 模 问题 ， 例 如 : 

机 器 翻译 

向 子 分 类 

情感 分 析 


与 在 图 像 区 域 滑动 窗口 的 方式 相同 ，CNN 可 以 在 字符 序列 上 滑动 窗口 ， 这 种 特征 定位 
不 变性 使 得 CNN 成 为 深度 网 络 工具 箱 中 的 有 力 工 具 。 本 章 着 重 于 一 个 对 图 像 数据 应 
用 CNN 的 例子 ， 不 过 需要 注意 的 是 ， 不 应 将 其 视 作 网 络 架 构 的 限制 ， 而 应 将 其 作为 
进一步 研究 的 出 发 点 。 














5.1.3 时间 序列 与 RNN 


RNN 很 适合 处 理 序 列 化 数据 ， 如 Web 日 志 数 据 。 如 果 序 列 化 数据 的 每 个 样本 都 包含 时 间 
惟信 息 ， 这 些 数据 就 被 视 作 时 间 序 列 数 据 。 


时 间 序 列 和 序列 化 数据 绘制 在 二 维 图 上 时 呈现 为 波形 。 通 常 我 们 寻找 那些 随 着 时 间 推 移 
形成 特定 模式 的 图 形 区 域 ， 这 与 那些 不 具有 时 间 域 ， 而 在 二 维 网 格 中 形成 图 片 的 图 像 数 
据 形成 对 比 。 然 而 在 时 间 序 列 和 图 像 中 ， 我 们 都 在 寻找 数据 中 可 能 出 现 的 特定 对 象 。 这 
些 对 象 可 能 在 大 小 上 进行 了 缩放 ， 并 且 通 常 不 会 每 次 都 出 现在 数据 中 相同 的 位 置 ， 这 就 
带 来 了 挑战 。 
RNN 从 多 层 感 知 器 发 展 而 来 ， 用 于 更 好 地 对 时 间 序 列 数据 的 时 间 域 建 模 。 如 同 第 4 章 中 所 
看 到 的 ，RNN 允许 将 输入 向 量 的 序列 当 作 RNN 模型 的 单个 逻辑 输入 ， 来 更 好 地 对 时 间 域 
建 模 。 






































传感器 、 日 志和 其 他 测量 值 
在 处 理 任何 随时 间 济 量 的 数据 源 时 ， 使 用 RNN 来 更 好 地 对 数据 在 一 段 时 间 
内 的 变化 建 模 。 








可 以 使 用 RNN 进行 分 类 、 回 归 和 生成 新 的 输出 。 本 章 稍 后 将 展示 分 类 和 新 生成 的 例子 。 























扮演 选择 模型 时 的 反对 者 
有 时 我 们 会 听 到 这 样 的 争论 : 一 个 实践 者 使 用 其 他 技术 ， 如 随机 森林 ， 取 得 了 巨大 成 
功 。 然 而 对 于 序列 化 数据 ， 除 非 在 特定 的 情况 下 ， 这 通常 不 是 好 的 做 法 。 


一 些 实践 者 争辩 说 ， 他 们 不 能 像 使 用 RNN 那样 ， 直 接 将 随机 森林 应 用 于 时 间 序 列 / 序 
列 数据 ， 因 为 在 对 时 间 序 列 建 模 之 前 ， 需 要 把 它 转换 成 某 种 扁平 的 向 量 表示 (例如 特 
征 提 取 ) 。 


将 深度 学 习 模 型 与 强大 的 模型 + 人 工 特征 工程 相 比 较 的 争论 常常 是 一 个 陷阱 。 这 是 因 
为 致力 于 特征 工程 的 实践 者 可 以 持续 地 尝试 发 现 更 好 的 特征 ， 直 到 发 现 一 个 特定 的 数 
据 集中 所 有 的 特征 (给 予 足够 长 的 时 间 ) 。 

深度 学 习 对 于 时 间 序 列 (或 任何 实际 问题 ) 的 真正 优势 基本 如 下 所 示 。 

如 果 采 用 定制 的 特征 /算法 的 做 法 ， 我们 需要 为 许多 完全 不 同 的 算法 /模型 编写 新 代 
码 ， 然 后 将 其 全 部 应 用 于 每 个 新 闻 题 / 数据 集 。 如 果 处 于 纯 软件 工程 领域 ,这 种 情况 
会 是 技术 性 债务 。 从 历史 上 看 ， 我 们 接受 了 这 一 机 器 学 习 的 现状 。 

如 果 开 始 还 不 知道 合适 的 特征 ， 那 么 结合 当前 深度 学 习 的 最 新 技术 ， 半 自动 化 神经 网 
络 超 参 数 调 优 会 比 半 自动 化 特征 工程 更 容易 。 一 个 精心 设计 的 深度 学 习 系 统 (包括 超 
参数 调 优 ) 可 以 高 效 地 重复 使 用 ， 并 被 期 望 在 各 种 问题 上 表现 良好 。 











当 处 理 那 些 不 确定 但 可 能 具有 长 期 依赖 的 可 变 长 度 时 间 序 列 时 ， 尤 其 适合 使 用 RNN。 
如 果 输 入 是 固定 长 度 的 序列 〈( 即 所 有 时 间 序 列 的 长 度 都 相同 ) ， 那 么 也 可 以 使 用 多 层 感 
知 器 或 CNN。 


但 如 果 你 想 输入 任意 长 的 序列 ，( 假 设 ) 你 需要 考虑 完整 的 输入 数据 历史 ， 那 么 RNN 
(或 精心 设计 的 具备 大 的 隐藏 状态 空间 的 马尔 可 夫 模 型 ) 基本 上 是 唯一 的 选择 。 











5.1.4 使 用 混合 网 络 

当 遇 到 时 间 和 图 像 相 结合 的 数据 (例如 视频 ) 时 ， 应 使 用 由 LSTM 和 卷 积 层 混合 而 成 的 特 
殊 网 络 。 我 们 推荐 这 种 混合 ， 因 为 LSTM 网 络 能 够 捕获 视频 中 随时 间 流 殊 、 图 像 中 变化 的 
时 间 方面 的 信息 ， 并 且 卷 积 层 能 够 捕获 帧 数据 本 身 的 结构 。 


5.2 DL4J 工 具 套 件 
DL4J 是 一 组 深度 学 习 工 具 的 集合 ， 它 们 被 打包 在 一 起 作为 一 个 套件 来 执行 如 下 功能 : 
。 集成 

向 量化 

建 模 
。 评估 
这 些 工 具 被 设计 为 可 以 在 多 个 平台 上 工作 ， 能 以 串 行 或 并 行 方式 执行 。DL4J 从 一 开始 就 
考虑 到 现代 运行 平台 ， 并 就 此 而 设计 ， 不 会 遇 到 其 他 机 器 学 习 库 在 过 去 十 年 中 遇 到 的 并 行 
化 问题 。DL4J 社区 还 关注 基本 建 模 之 外 的 需求 ， 提 供 了 与 Spark 和 Hadoop 分 布 式 文件 系 
统 (HDFS) 等 平台 更 好 的 集成 。DL4J 项 目的 向 量化 能 力也 很 强大 ， 引 入 DataVec 作为 该 
套件 的 一 等 公民 。 
DL4J 专注 于 企业 级 功能 ， 目 标 用 户 是 在 深度 学 习 中 需要 JVM 选项 ， 同 时 也 需要 C++ 的 速 
度 和 Spark 并 行 计算 能 力 的 人 。 首 先 简 单 介 绍 DL4J 套件 的 各 个 方面 ， 然 后 介绍 如 何在 你 
的 笔记 本 上 设置 这 些 工具 。 





































































































5.2.1 向 量化 与 DataVec 

由 于 神经 网 络 只 能 训练 向 量 ， 向 量化 数据 是 必要 的 预 处 理 步 又 。DL4J 套件 包括 一 个 名 为 
DataVec 的 库 ， 它 允许 我 们 快速 创建 适合 核心 DL4J 库 工具 建 模 的 向 量化 数据 。 本 书 稍 后 介 
绍 DataVec， 它 能 够 以 本 地 模式 工作 ， 也 可 以 在 Apache Spark 上 以 并 行 模式 执行 。 








5.2.2 运行 时 与 ND4J 

ND4J 是 JVM 上 的 一 个 科学 计算 库 。 其 语法 模仿 了 NumPy 和 MATLAB， 还 提供 了 可 以 使 
用 Java 进行 线性 代数 和 大 规模 矩阵 操作 的 n 维 数组 。ND4J 提供 了 一 个 整洁 的 数值 接口 ， 
使 用 户 无 须 改变 实现 代码 ， 即 可 将 后 端 处 理 从 原生 环境 切换 到 GPU。 我 们 可 以 编写 一 次 线 
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性 代数 的 实现 ， 然 后 在 Maven 中 指定 ND 条 的 后 端 。ND4J 最 常见 的 后 端 有 x86 和 jcublas。 
DL4J 项 目的 开发 最 终 将 包括 OpenCL 和 了 Power 8。ND4J 包括 Java 和 Scala API， 为 基于 
JVM 语言 开发 的 程序 员 提供 了 熟悉 的 环境 。ND4J 的 API 旨 在 提供 功能 ， 并 且 尽 可 能 提供 
NumpPy 的 简洁 性 和 易 用 性 。 
DL4J Java API 允许 程序 员 在 可 组 合 框 架 内 配置 自己 的 可 扩展 神经 网 络 ， 以 及 根据 需要 调整 
超 参数 。 它 为 神经 网 络 的 建立 、 调 优 、 评 估 和 数据 加 载 提 供 了 空间 。ND4J 的 API 在 类 似 
于 NumPy 的 环境 中 提供 了 基本 的 线性 代数 、 微 积分 和 信号 处 理 功 能 (开发 人 员 可 以 在 多 
个 CPU 或 GPU 上 部 署 分 布 式 运行 时 )。Java API 和 ND4 后 端 共 同 提供 了 当今 企业 级 深度 
学 习 应 用 所 需 的 编程 环境 和 顶级 速度 。 
1. ND4J 与 速度 需求 
在 深度 学 习 的 世界 里 总 是 需要 更 快 的 计算 。ND4J 提供 了 能 够 更 快 地 执行 线性 代数 运算 的 
三 个 关键 方式 : 

使 用 JavaCPP 









































。 CPU 后 端 
。 GPU 后 端 
下 面 提供 了 一 些 说 明 ， 介 绍 这 些 关键 领域 的 改进 如 何 帮 助 ND4J 加 速 深度 模型 训练 。 
口 JavaCPP 
自动 生成 C++ 的 JNI 绑 定 。 
允许 在 Java 环境 中 轻松 维护 和 部 署 C++ 二 进 制 文件 。 
口 CPU 后 端 


。 OpenMP (本 地 操作 中 的 多 线程 
。 OpenBLAS 或 MKL (BLAS 操作 )。 
SIMD 扩展 。 


口 GPU 后 端 
。 DL4J 目前 支持 Cuda 7.5 (+cuBLAS)， 并且 Cuda 8.0 公布 之 后 就 会 支持 它 。 
。 还 可 使 用 cuDNN。 


oa 





o 


设置 GPU 支持 
有 关 用 DL4J 设置 GPU 的 详细 信息 ， 请 参阅 附录 工 中 的 指南 。 





2. ND4J 和 DL4J 的 性 能 基准 测试 
要 了 解 DL4J 与 其 他 主要 深度 学 习 库 比较 的 信息 ， 请 访问 GitHub 项 目 (https://github.com/ 
deeplearning4j/dl4j-benchmark ) 。 


表 5-1 是 目前 DL4J 与 主要 库 的 比较 结果 。 
































表 5-1: LeNet 示 例 wcuDNN 





包 CPU GPU 多 线程 准确 度 
D14j 20m08s 3m13sS lml8s ~99.0% 
Caffe 19m52s 53s lml4s ~99.0% 
Tensorflow Sml5s lm44s 2m44s ~98.6% 
Torch 18m03s 6m25s 3m50s ~98.3% 


DL4J 社区 继续 推动 ND4J 和 DL4J 的 性 能 不 断 向 前 发 展 。 你 可 以 随时 查看 公开 的 基准 测试 
结果 并 重 现 它 。 


5.3 DL4J API 的 基本 概念 


本 节 将 列 出 大 多 数 DL4J 示例 使 用 的 核心 技术 。 如 果 想 详细 了 解 API 的 使 用 ， 请 参考 附录 
E 或 DL4J 在 线 文档 。 


5.3.1 加载 与 保存 模型 

本 节 重 点 介绍 一 些 你 可 能 想 用 DL4J API 做 的 事 | 
1. 把 训练 好 的 模型 写 入 磁盘 

使 用 ModelSerializer 类 将 模型 的 架构 和 参数 写 入 磁盘 。 如 以 下 代码 片段 所 示 : 


BufferedOutputStream stream = new BufferedOutputStream(...); 
ModelSerializer .writeModeL( trainedNetwork, stream, true ); 


这 既 适 用 于 写 入 本 地 磁盘 ， 也 适用 于 写 入 其 他 文件 系统 ， 如 HDFS。 
写 入 HDFS。 要 写 入 HDFS， 只 需 使 用 正确 的 Path 类 (org.apache.hadoop.fs.Path) 和 格 
式 正确 的 HDFS 路 径 字符 串 ， 如 下 所 示 : 


Path modeLpPath = new Path( hdfsPathToSaveModetL ); 
BufferedOutputStream stream = new BufferedOutputStream( os ); 
ModelSerializer.writeModel( trainedNetwork, stream, true ); 


HDFS 文件 目录 通常 如 下 所 示 : 
hdfs:///path/to/my/file.txt 
2. 从 磁盘 读 取 已 保存 的 模型 


如 果 需 要 从 磁盘 加 载 先 前 保存 的 DL4J 模型 ， 我 们 将 再 次 使 用 Modelserializer 类 ， 如 下 鱼 
的 代码 片段 所 示 : 


InputStream stream = ... 
MultiLayerNetwork network = ModelSerializer.restoreMultiLayerNetwork( stream ); 


从 HDFS 读 取 。 如 果 你 想 直 接 从 HDFS 加 载 模型 ， 请 使 用 相同 的 API 调用 ， 但 是 需要 使 用 
Hadoop Filesysten 类 创建 InputStream， 如 下 所 示 : 




















EE 
月 。 















































org.apache.hadoop.conf.Configuration hadoopConfig = new org.apache.hadoop.conf 
.Configuration(); 

FileSystem hdfs = FileSystem.get(hadoopConfig); 

InputStream stream = hdfs.open( new Path( hdfspathToSavedModelrile ) ); 

MultiLayerNetwork network = ModelSerializer.restoreMultiLayerNetwork( stream ); 


5.3.2 ”为 模型 获取 输入 


DL4J 专门 使 用 NDArray 作为 对 模型 进行 训练 和 评分 的 数据 结构 。NDArray 与 Dataset 对 
象 经 常 配合 使 用 ， 用 于 模型 的 输入 和 输出 。 更 多 DataSet 类 用 法 的 相关 信息 ， 请 查看 有 关 
ND4J 的 附录 。 


数据 向 量化 
如 果 想 了 解 如 何 将 原始 数据 转换 为 DL4J 模型 所 需 的 NDArray 向 量 ， 请 查看 
附录 下 和 附录 E。 








ee 


训练 中 加 载 数 据 

DL4J 建 模 项 目 中 ， 在 开始 训练 数据 的 测试 工作 流 之 前 ， 要 先 通过 RecordReader 从 文件 格 
式 解 析 数 据 ， 然 后 将 数据 打包 为 小 批量 。 

口 RecordReader 


RecordReader 类 的 任务 是 从 文件 格式 解析 特定 的 向 量 ， 并 将 数据 值 转换 为 标准 的 
NDArray。 








口 DataSetIterator 
DataSetIterator 与 RecordReader 组 合 使 用 ， 接 受 每 条 记录 产生 的 NDArray， 创 建 小 批 
量 的 NDArray 进行 训练 。 

在 Spark 上 加 载 数 据 


在 Spark 上 加 载 数据 的 做 法 与 之 类 似 ， 但 需要 使 用 专门 的 类 加 载 Spark 和 
HDFS 上 的 数据 ， 第 9 章 将 详细 讨论 这 些 问 题 。 








5.3.3 ”建立 模型 架构 


用 DL4J 建 模 的 每 个 神经 网 络 都 需要 配置 一 个 特定 的 架构 。 本 书 之 前 讨论 了 主要 的 架构 ， 
这 些 概念 与 你 在 DL4J 中 要 设置 的 网 络 架构 直接 匹配 。 


1. 建立 面向 层 的 架构 
NeuralNetConfiguration 对 象 是 构建 DL4J 神经 网 络 中 层 的 基本 对 象 。 许 多 单个 层 的 组 合 
构成 一 个 深度 神经 网 络 ， 如 下 面 的 例子 所 示 : 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 


.iterations(1) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 




















.learningRate( learningRate) 

.Updater (Updater .NESTEROVS) .momentum(0.9) 

.list() 

.layer(0, new DenseLayer .Builder().nIn(numInputs).nOut(numHiddenNodes) 
.weightInit(WeightInit.XAVIER) 

.activation(Activation.RELU) 
.build()) 

.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 
.activation(Activation.SOFTMAX) 

.NIn(numHiddenNodes) .nOut(numOutputs).build()) 

.pretrain(false).backprop(true) .build(); 


使 用 这 个 配置 类 ， 通 过 添加 层 并 具体 配置 每 一 层 ， 来 设计 预期 的 网 络 架 构 。 
2. 超 参数 
NeuralNetConfiguration 对 象 还 允许 我 们 设置 许多 与 训练 相关 的 不 同 超 参数 ， 例 如 : 


.learningRate(learningRate) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 


在 前 面 的 代码 片段 中 ， 可 以 看 到 超 参 数 ， 如 学 习 率 、 更 新 器 和 动量 值 是 由 给 定 的 


MultiLayerConfiguration 对 象 设置 的 ， 这 允许 你 控制 网 络 如 何 被 训练 。 本 书 稍 后 将 探讨 设 
置 不 同 网 络 架构 超 参 数 的 策略 。 


5.3.4 训练 与 评估 

在 配置 了 网 络 架构 并 通过 RecordReader 和 Iterator 加 载 数据 之 后 ， 需 要 训练 模型 。 我 们 

会 设置 多 轮 ， 并 在 网 络 上 调用 .fit() 方法 ， 训 练 数据 将 作为 参数 传 入 ， 如 下 所 示 : 
model.fit( trainingDataIter ); 

这 个 方法 循环 遍历 由 返 代 器 引用 的 数据 集中 所 有 的 训练 记录 ， 并 在 网 络 完 成 循环 之 后 返回 。 

每 个 训练 轮 被 看 作 输入 数据 集 的 完全 使 用 。 在 下 面 的 代码 片段 中 ， 可 以 看 到 一 个 在 输入 数 

据 集 进 代 器 上 调用 .fit() 方法 的 模型 。 


for (intn=0;n<nEpochs; n++) { 
modeL.fit( trainingDatalIter ); 


} 
在 本 章 稍 后 的 例子 中 ， 我 们 会 再 次 见 到 这 种 管理 轮 循环 的 模式 。 
1. 做 出 预测 
为 了 更 好 地 理解 如 何 做 出 预测 ， 建 议 阅 读 附 录 E。 


2. 训练 数据 、 验 证 数据 和 测试 数据 
不 仅 将 训练 数据 分 成 训练 和 测试 部 分 ， 而 且 还 包括 验证 部 分 ， 被 视 作 一 种 最 佳 做 法 。 使 用 
验证 部 分 的 数据 来 指导 我 们 尽 可 能 早 地 结束 训练 。 










































































5.4 使 用 多 层 感知 器 网 络 对 CSV 数 据 建 模 


对 于 新 的 深度 学 习 实践 者 来 说 ， 刚 开始 学 习 DL4J 可 能 感到 很 复杂 ， 所 以 我 们 首先 构建 





多 层 感 知 器 模型 ， 在 你 可 能 熟悉 的 旧 神 经 网 络 架构 环境 中 展示 DL4J API 的 基本 





使 用 。 本 


书 附带 的 GitHub 代码 库 中 有 一 个 Java 实例 ， 对 一 个 被 称 为 “Saturn” 的 合成 非 线 性 数据 
集 建 模 。 示 例 5-1 是 这 个 示例 的 代码 (https:/github.com/deeplearning4j/oreilly-book-dl4j- 
examples/blob/master/dl4j-examples/src/main/java/org/deeplearning4j/examples/feedforward/ 








classification/MLPClassifierSaturn.java ) 。 


示例 5-1 多 层 感知 堪 示 例 


public class MLPClassifierSaturn { 


public static void main(String[] args) throws Exception { 
Nd4j .ENFORCE_NUMERICAL_STABILITY = true; 
int batchSize = 50; 
int seed = 123; 
double learningRate = 0.005; 


// 轮 数 〈 数 据 完全 传递 ) 
int nEpochs = 30; 


int numInputs = 2; 
int numOutputs = 2; 
int numHiddenNodes = 20; 


final String filenameTrain = 


new ClassPathResource("/classification/saturn_data_train.csv") 


.getFile().getPpath(); 
final String filenameTest = 


new ClassPathResource("/classification/saturn_data eval.csv") 


.getFile().getPpath(); 


// 加 载 训练 数据 : 
RecordReader rr = new CSVRecordReader(); 
rr.initialize(new FileSplit(new File(filenameTrain))); 
DataSetIterator trainIter = 

new RecordReaderDataSetIterator(rr ,batchSize,0,2); 


// 加 载 测 试 /评估 数据 : 
RecordReader rrTest = new CSVRecordReader(); 
rrTiest.initialize(new FileSplit(new File(filenameTest))); 
DataSetIterator testIter = 

new RecordReaderDataSetIterator(rrTest,batchSize,0,2); 





//log.info("Build model...."); 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 


.Seed(seed) 
.iterations(1) 


.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_ GRADIENT_DESCENT) 


.learningRate(learningRate) 

.Updater (Updater .NESTEROVS) .momentum(0.9) 

.list() 

.layer(0, new DenseLayer .Builder().nIn(numInputs) 
.NOut(numHiddenNodes) 





.weightInit(WeightInit.XAVIER) 
.activation(Activation.RELU) 
.build()) 

.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 
.activation(Activation.SOFTMAX) 

.NIn(numHiddenNodes) .nOut(numOutputs) .build()) 

.pretrain(false).backprop(true).build(); 


MultiLayerNetwork model = new MultiLayerNetwork(conf); 
model .init(); 
model.setListeners(new ScoreIterationListener(10)); // 每 更 新 10 个 参数 就 
// 打 印 分 数 


for ( int n = 0; Nn < nEpochs; n++) { 
model.fit( trainIter ); 
} 


System.out.printLn("EvaLuate model...."); 
Evaluation eval = new Evaluation(numOutputs); 
whiLe(testIter .hasNext()){ 

DataSet t = testIter .next(); 

INDArray features = t.getFeatureMatrix(); 

INDArray lables = t.getLabels(); 

INDArray predicted = model.output(features,false); 


eval.eval(lables, predicted); 


System.out.println(eval.stats()); 














// 训 练 已 结束 。 接 下 来 的 代码 只 是 用 于 画 出 数据 的 图 形 以 及 预测 











double xMin = -15; 
double xMax = 15; 
double yMin = -15; 
double yMax = 15; 


// 在 x/y 输 入 空间 的 每 个 点 评估 预测 值 ， 并 做 好 绘制 图 的 准备 工作 
int npointsPerAxis = 100; 
double[][] evalPoints = new double[nPointsPerAxis*npointsPerAxis][2]; 
int count = 0; 
for( int i=0; i<npointsperAxis; i++ ){ 
for( int j=0; j<nPpointsPerAxis; j++ ){ 
double x = i * (xMax-xMin)/(nPointsPerAxis-1) + xMin; 























double y = j * (yMax-yMin)/(nPointsPerAxis-1) + yMin; 
evalPoints[count][0] = x; 
evalPoints[count][1] = y; 


COUnt++; 
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INDArray allXYPoints = Nd4j.create(evalPoints); 
INDArray predictionsAtXYPoints = model.output(allXYPoints); 


// 将 所 有 的 训练 数据 放 在 一 个 数组 里 ， 并 绘制 它 ; 

rr.initialize(new FileSplit(new File(filenameTrain))); 

rr.reset(); 

int nTrainpoints = 500; 

trainIter = new RecordReaderDataSetIterator(rr,nTrainpoints,0,2); 

DataSet ds = trainIter.next(); 

PlotUtil.plotTrainingData(ds.getFeatures(), ds.getLabels(), allXYPoints, 
predictionsAtXYPoints, npointsperAxis); 








1/ 获取 测试 数据 ， 通 过 网 络 运行 测试 数据 ， 并 进行 预测 ， 然 后 绘制 这 些 预测 ; 

rrTiest.initialize(new FileSplit(new File(filenameTest))); 

rrTest.reset(); 

int nTestPoints = 100; 

testIter = new RecordReaderDataSetIterator(rrTest,nTestPoints,0,2); 

ds = testIter .next(); 

INDArray testPredicted = model.output(ds.getFeatures()); 

PlotUtil.plotTestData(ds.getFeatures(), ds.getLabels(), testPredicted, 
allXYPoints, predictionsAtXYPoints, npointsPerAxis); 














System.out.printLnC"*w***% 炎 炎炎 火炎 *EXampLe 下 记 n 宛 sh@d 交 六 炎 灾 类 炎 灾 光 炎 次 光 炎 次 光 炎 次 光 火光 淆 中 ， 


} 
下 面 解 释 代码 的 不 同 部 分 是 如 何 一 起 工作 ， 来 对 Saturn 数据 集 建 模 的 。 


5.4.1 建立 输入 数据 
输入 数据 是 非 线 性 数据 集 ， 其 形式 如 下 所 示 : 


























,-7.1239700674365,-5.05175898010314 
80771566423302,0.770505522143023 
43184823707231,-4.2287794074931 
451276074541732,0.669574142606103 
52519959303934,-0.953055551414968 


:We 
0,1. 
1,8. 
0,0. 
0,1. 


3? 





第 一 列 是 行 的 标签 ， 第 二 列 和 第 三 列表 示 两 个 独立 变量 列 。 我 们 需要 使 用 DL4J 迭代 器 引 
用 数据 集 ， 因 此 使 用 CSVRecordReader 来 加 载 数据 。 


// 加 载 训练 数据 : 

RecordReader rr = new CSVRecordReader(); 

rr.initialize(new FileSplit(new File(filenameTrain))); 

DataSetIterator trainIter = new RecordReaderDataSetIterator(rr,batchSize,0,2); 


在 迭代 如 中 ， 我 们 告诉 记录 读 取 器 数据 有 几 列 、 哪 些 列表 示 标 签 。 


5.4.2 ”确定 网 络 架 构 


我 们 想 要 一 个 基本 的 多 层 感 知 器 ， 并 且 需 要 使 用 MultiLayerConfiguration 对 象 来 设置 它 
(以 及 任何 DL4J 网 络 架构 ) ， 如 下 所 示 : 
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//Log.info("ButLd model...."); 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 

.Seed(seed) 

.iterations(1) 

.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

.learningRate( learningRate) 

.Updater (Updater .NESTEROVS) .momentum(0.9) 

.list() 

.layer(0, new DenseLayer .Builder().nIn(numInputs).nOut(numHiddenNodes) 
.weightInit(WeightInit.XAVIER) 

.activation(Activation.RELU) 
.build()) 

.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 
.activation(Activation.SOFTMAX) 

.NIn(numHiddenNodes) .nOut(numOutputs).build()) 

.pretrain(false).backprop(true) .build(); 


MultiLayerNetwork model = new MultiLayerNetwork(conf); 
model.init(); 
model.setListeners(new ScoreIterationListener(10)); // 每 更 新 10 个 参数 就 打印 分 数 


这 个 例子 中 有 两 层 : 


。 DenseLayer 





。 OutputLayer 

下 面 了 解 网 络 架构 中 特定 的 部 分 。 

1. 通用 超 参数 

我 们 使 用 以 下 参数 设置 优化 算法 : 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

这 指示 DL4J: 我 们 打算 使 用 SGD 优化 算法 。 学 习 率 设置 如 下 : 

.learningRate(learningRate) 

这 指示 DL4J: 我 们 打算 使 用 动量 因子 为 0.9 的 Nesterov 参数 更 新 策略 : 
.Updater (Updater .NESTEROVS) .momentum(0.9) 

2. 第 一 个 隐藏 层 


第 一 个 隐藏 层 从 向 量化 管道 产生 的 输入 中 获取 原始 值 。 这 些 值 经 过 各 种 形式 的 规范 化 之 
后 ,通常 在 [-1.0, 1.0] 或 [0.0, 1.0] 范围 内 。 
.layer(0, new DenseLayer .Builder().nIn(numInputs).nOut(numHiddenNodes) 


.weightInit(WeightInit.XAVIER) 
.activation(Activation.RELU) 
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.build()) 
这 里 层 的 输入 神经 元 需要 与 输入 向 量 中 自 变量 列 的 数量 相同 。 
.NIn(numInputs) 











这 一 层 的 输出 数 就 是 神经 网 络 下 一 层 神经 元 的 数量 。 在 这 个 例子 中 ， 这 个 数 由 变量 
numHiddenNodes 表示 。 对 于 该 层 ， 我 们 还 使 用 WeightInit.XAVIER 策略 来 初始 化 权重 ， 激 
活 函 数 是 修正 线性 函数 。 


.weightInit(WeightInit.XAVIER) 
.activation(Activation.RELU) 


下 面 研 究 这 个 网 络 的 下 一 层 一 一 输出 层 。 
3. 用 于 分 类 的 输出 层 
这 个 输出 层 使 用 的 是 一 个 softmax 输出 激活 函数 ， 回 顾 一 下 之 前 介绍 多 标签 softmax 输出 
层 使 用 的 章节 。 在 这 个 问题 中 ， 我 们 正在 构建 一 个 二 元 分 类 器 ， 因 此 也 可 以 使 用 sigmoid 
.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 
.activation(Activation.SOFTMAX) 
.NIn(numHiddenNodes) .nOut(numOutputs) .build()) 
预期 的 输入 数量 与 先前 (输入 ) 层 的 输出 数量 相同 。 输 出 单元 的 数量 是 两 个 ， 因 为 这 是 一 
个 二 元 分 类 器 ， 而 softmax 会 给 出 每 个 类 别 的 分 数 。 





























sigmoid 还 是 softmax 输出 层 

在 数学 上 使 用 sigmoid 单 输出 与 使 用 有 两 个 输出 单元 的 softmax 输出 层 (使 
用 DL4J 的 MCXENT/NegativeLogLikelihood， 以 及 独 热 表示 法 : 写法 是 
[1, 0] 或 [0, 1], 而 不 是 [0] 或 1) 相同。 下 面 的 专栏 介绍 了 独 热 向 量 表示 法 。 
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层 使 用 人 负 对 数 似 然 损 失 函 数 ， 因 为 它 通 常 与 softmax 输出 层 配 合 使 用 。 








独 执 向 量 表示 
独 热 表示 法 的 做 法 是 : 给 定 一 组 位 ， 该 向 量 中 只 有 一 列 的 值 可 以 为 1.0， 其 他 所 有 
列 的 值 都 为 0.0。 这 种 向 量 表示 方法 经 常 被 用 来 表示 使 用 “1 of K”(K 个 类 别 之 一 ) 
分 类 方案 的 整数 特征 。 表 5-2 给 出 了 值 (0 到 4) 的 常规 二 进 制 表示 以 及 独 热 表示 的 
示例 。 


表 5-2: 独 热 向 量 的 形象 化 表示 





值 二 进 制 编码 。” 独 热 编码 
0 000 00000001 
1 001 00000010 
2 010 00000100 
3 011 00001000 
4 100 00010000 














5.4.3 训练 模型 
为 了 训练 模型 ， 我 们 建立 一 个 for 循环 ， 它 将 在 输入 数据 集 上 以 指定 轮 (如 遍历 整个 数据 
集 ) 数 训练 神经 网 络 。 


for ( int n = 0; Nn < nEpochs; n++) { 
model.fit( trainIter ); 





} 
为 了 在 整个 数据 集 上 训练 ， 我 们 调用 MultiLayerNetwork 类 实例 的 .fit() 方法 。 这 个 类 处 
理 被 适当 指定 的 超 参 数 的 基本 机 制 ， 比 如 之 前 在 输入 数据 集 迭 代 嚣 中 配置 的 小 批量 的 大 小 。 
DataSetIterator testIter = new RecordReaderDataSetIterator(rrTest,batchSize,0,2); 
在 这 段 代码 中 ，batchsize 变量 控制 一 个 批量 中 从 磁盘 收集 多 少 样本 传递 到 模型 中 训练 。 
当 模 型 被 训练 时 ， 控 制 台中 出 现 类 似 于 下 面 这 样 的 输出 : 





























0.L.ScoreIterationListener - Score at iteration 0 is 0.6313823699951172 
0.L.ScoreIterationListener - Score at iteration 10 is 0.4763660430908203 
.0.L.ScoreIterationListener - Score at iteration 20 is 0.42963680267333987 
0o.L.ScoreIterationListener - Score at iteration 30 is 0.39850467681884766 
o.L.ScoreIterationListener - Score at iteration 40 is 0.3672478103637695 


DOOOO 
EN 


误差 数 会 随 着 时 间 减 少 ， 当 它 接近 0.0 时 ， 就 说 明 模 型 几乎 完成 了 对 训练 数据 的 学 习 。 


5.4.4 评估 模型 


下 面 的 代码 示例 用 于 评估 新 多 层 感知 器 模型 。 这 里 通过 testIter 对 象 实例 ， 将 实际 标签 和 
预测 标签 加 载 到 Evaluation 类 的 实例 中 。 


System.out.println("Evaluate model...."); 
Evaluation eval = new Evaluation(numOutputs); 
while(testIter.hasNext()){ 

DataSet 七 = testIter.next(); 

INDArray features = t.getFeatureMatrix(); 

INDArray lables = t.getLabels(); 

INDArray predicted = model.output(features,false); 

















eval.eval(lables, predicted); 


} 


System.out.println(eval.stats()); 


再 回顾 一 下 第 1 章 Fl 评分 和 其 他 与 评估 相关 的 指标 的 概念 。eval.stats() 方法 调用 将 产 
生 以 下 控制 台 输 出 : 


EvaLuate model.... 





LC 


Examples labeled as 0 classified by model as 0: 48 times 
Examples labeled as 1 classified by model as 1: 52 times 








Accuracy: 
Precision: 
Recall: 

F1 Score: 


这 是 一 个 相对 简单 的 数据 集 ， 在 30 轮 之 后 ，DL4J 能 够 在 所 有 评估 项 上 得 到 完美 的 评分 
(1.0)。 下面 转向 更 复杂 的 例子 。 





5.5 利用 CNN 对 手写 图 像 建 模 


正如 本 章 开 头 所 探讨 的 那样 ，CNN 擅长 图 像 分 类 。 下 个 例子 将 展示 如 何 对 手写 的 数字 图 像 
进行 加 载 和 建 模 ， 建 模 得 到 的 CNN 模型 能 够 对 没 见 过 的 新 的 手写 数字 图 像 进行 分 类 。 

在 这 个 例子 中 ， 训 练 数据 集 和 测试 数据 集 设置 有 数据 集 迭 代 器 。 我 们 将 在 训练 数据 集 上 训 
练 数据 ， 然 后 用 留 出 的 测试 数据 集 评估 模型 的 准确 度 。 我 们 使 用 的 训练 数据 集 是 MNIST 
手写 图 像 数 据 集 。 

稍 后 你 将 看 到 这 个 模型 的 架构 与 前 面 的 示例 不 同 ， 它 具有 不 同 的 层 和 参数 。 这 个 特殊 的 
CNN 被 称 为 LeNet。 




















LeNet 


LeNet 卷 积 架构 聚焦 于 一 系列 的 卷 积 层 及 随后 的 最 大 池 化 层 。( 示 例 5-2 展示 
了 这 个 CNN 架构 在 DL4J 中 的 实现 ) 





5.5.1 使 用 LeNet CNN 的 Java 代 码 示例 
示例 5-2 提供 了 MNIST LeNet CNN 示例 的 代码 (http://bit.ly/2toXqtn)。 
示例 5-2 DL4J 中 为 MNIST 构建 的 LeNet 


public class LenetMnistExample { 
private static final Logger log = LoggerFactory 
.getLogger(LenetMnistExample.class); 














public static void main(String[] args) throws Exception { 
int nChannels = 1; // 输 入 的 通道 数 
int outputNum = 10; // 可 能 的 输出 数 
int batchsize = 64; // 测 试 批量 的 大 小 
int nEpochs = 1; // 训 练 轮 数 
int iterations = 1; // 训 练 迭 代数 
int seed = 123; // 


* 


为 要 迭代 的 数据 集 生成 批量 大 小 的 迭代 器 
*/ 


log.info("Load data...."); 
DataSetIterator mnistTrain = new MnistDataSetIterator(batchSize,true,12345); 
DataSetIterator mnistTest = new MnistDataSetIterator(batchSize,false,12345); 





A 
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构建 神经 网 络 

*y 

log.info("Build model...."); 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(iterations) // 如 上 训练 迭代 
.regularization(true).12(0.0005) 
/* 























为 学 习 率 衰减 和 偏 置 打开 注释 
* 
/ 
.learningRate( .01)//.biasLearningRate(0.02) 
//.learningRateDecayPolicy(LearningRatePolicy.Inverse) 
//.LrPoLicyDecayRate(0.001).LrPoLicyPower(0.75) 
.weightInit(WeightInit.XAVIER) 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.list() 
.layer(0, new ConvolutionLayer .Builder(5, 5) 
//nIn 和 和 nO0ut 指 定 深度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 
// 的 过 滤器 的 数量 
.nNIn(nChannels) 
.Stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(1, new SubsamplingLayer 
.Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(2, new ConvolutionLayer .Builder(5, 5) 
// 注 意 nIn 无 须 应 用 到 后 面 的 层 
.stride(1, 1) 
.NOut(50) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(3, new SubsamplingLayer .Builder(SubsamplingLayer 
.PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(4, new DenseLayer .Builder().activation(Activation.RELU) 
.NOut(500) .build()) 
.layer(5, new OutputLayer 
.Builder(LossFunctions.LossFunction.NEGATIVELOGLIKELIHOOD) 
.NOut(outputNum) 
.activation(Activation.SOFTMAX) 
.build()) 
.SetInputType(InputType.convolutionalFlat(28,28,1)) // 查 看 下 面 的 说 明 
.backprop(true).pretrain(false).build(); 












































/* 
.SetInputType(InputType.convolutionalFlat(28,28,1)) 这 一 行 做 了 以 下 几 件 事情 。 



































(a) 它 增 加 了 预 处 理 器 ， 用 于 处 理 卷 积 / 子 采 样 层 和 密集 层 之 间 的 转换 等 事情 。 
(b) 做 一 些 额外 的 配置 验证 。 
(c) 必要 时 ， 根 据 前 一 层 的 大 小 〈 但 不 会 覆盖 用 户 手动 设置 的 值 ) 设置 每 一 层 的 nIn 
(输入 神经 元 的 数量 ， 或 使 用 CNN 时 的 输入 次 度 ) 值 。 
InputTypes 也 可 用 于 其 他 类 型 的 层 (RNN、MLP 等 ) ， 而 不 仅仅 是 CNN。 
对 于 普通 的 图 像 ，( 当 使 用 ImageRecordReader 时 ) 使 用 InputType.convolutional 
(height ,width ,depth ) 。 
MNIST 记 录 读 取 器 是 一 种 特殊 情况 ， 它 以 "扁平 化 " 行 向 量 格式 〈 即 1x784 向 量 ) 输出 28x28 像 
过 的 灰 度 (nChannels=1) 图 像 ， 因 此 这 里 使 用 的 输入 类 型 是 "convolutionalFlat"。 
*/ 

































































MultiLayerNetwork model = new MultiLayerNetwork(conf); 
model.init(); 


log.info("Train model...."); 
model.setListeners(new ScoreIterationListener(1)); 
for( int i=0; i<nEpochs; i++ ) { 
model.fit(mnistTrain); 
log.info("*** Completed epoch {} ***", i); 


Log.info("EvaLuate model...."); 
Evaluation eval = new Evaluation(outputNum); 
while(mnistTest.hasNext()){ 
DataSet ds = mnistTest.next(); 
INDArray output = model.output(ds.getFeatureMatrix(), false); 
eval.eval(ds.getLabels(), output); 


log.info(eval.stats()); 
mnistTest.reset(); 


} 


TLog .LnfoC"*** 灾 火灾 火光 炎炎 火灾 火光 光 EXamplLe 下 ni 福 sh@d 守 光 炎炎 交 炎 淆 次 光裕 炎 内 次 灾 淆 尖 实 关内 是) ， 


} 
下 面 介绍 此 程序 特定 的 部 分 ， 以 及 它们 古 如 何 协同 工作 来 对 MNIST 图 像 数 据 集 建 模 的 。 


5.5.2 ”加 载 及 向 量化 输入 图 像 


这 个 例子 使 用 了 一 个 名 为 MnistDataSetIterator 的 自 定 义 数 据 集 迭代 器 。 这 是 因为 MNIST 
数据 集 是 自 定义 的 二 进 制 格式 ， 这 些 文件 不 是 通常 所 期 望 的 那样 : 目录 中 包含 一 组 单独 
的 JPG 或 PNG 文件 。 为 了 简化 这 个 示例 ， 你 只 需 知道 程序 在 幕后 执行 必要 的 函数 ， 原 
始 图 像 数 据 被 提取 到 NDArray 中 以 便 使 用 DL4J 训练 。 以 下 的 代码 片段 展示 了 如 何 创建 


MnistDataSetIterator, 











7 





























DataSetIterator mnistTrain = new MnistDataSetIterator(batchSize,true,12345); 
DataSetIterator mnistTest = new MnistDataSetIterator(batchSize,false,12345); 


在 这 个 代码 片段 中 ， 代 码 使 用 单独 的 迭代 器 分 别 加 载 训练 和 测试 数据 集 。 这 个 程序 还 将 自 
动 从 互联 网 上 下 载 MNIST 数据 集 ， 并 在 本 地 解压 缩 以 供 使 用 。 
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5.5.3 DL4J 中 用 于 LeNet 的 网 络 架 构 

我 们 再 次 看 到 使 用 MultiLayerConfiguration 对 象 描 述 前 面 多 层 感 知 器 示例 中 的 网 络 架 构 。 
不 过 请 注意 ， 下 面 的 代码 示例 所 示 的 网 络 具 有 更 多 的 层 ， 并 且 层 的 类 型 不 同 于 多 层 感 知 器 
的 示例 。 


/* 























构建 神经 网 络 
*/ 


log.info("Build model...."); 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(iterations) // 如 上 训 | 练 迭 代 
.reguLarization(true).L2(0.0005) 





为 学 习 率 衰减 和 偏 置 打开 注释 
* 
/ 
.learningRate( .01)//.biasLearningRate(0.02) 
//.learningRateDecayPolicy(LearningRatePolicy.Inverse) 
.LrPoLicyDecayRate(0.001).LrPoLicyPower(0.75) 
.weightInit(WeightInit.XAVIER) 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.updater (Updater .NESTEROVS ) .momentum(0.9) 
.List() 
.Layer(0，new ConvoLutionLayer .BuitLder(5，5) 
//nIn 和 nO0ut 指 定 深 度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 的 
// 过 滤器 的 数量 
.nNIn(nChannels) 
.stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(1, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.stride(2,2) 
.build()) 
.layer(2, new ConvolutionLayer .Builder(5, 5) 
// 注 意 nIn 无 须 应 用 到 后 面 的 层 
.stride(1, 1) 
.NOut(50) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(3, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(4, new DenseLayer .Builder().activation(Activation.RELU) 
.NOut(500).build()) 
.layer(5, new OutputLayer .Builder(LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 
.NOut(outputNum) 
.activation(Activation.SOFTMAX) 
.build()) 
.SetInputType(InputType.convolutionalFlat(28,28,1)) // 查 看 下 面 的 说 明 




















.backprop(true).pretrain(false).build(); 


/* 
.SetInputType(InputType.convolutionalFlat(28,28,1)) 这 一 行 做 了 几 件 事 情 。 
(a) 它 增 加 了 预 处 理 器 ， 用 于 处 理 卷 积 / 子 采 样 层 和 密集 层 之 间 的 转换 之 类 的 事情 。 
(b) 做 一 些 额外 的 配置 验证 。 
(c) 必要 时 ， 根 据 前 一 层 的 大 小 〈 但 不 会 覆盖 用 户 手动 设置 的 值 ) 设置 每 一 层 的 nIn 
(输入 神经 元 的 数量 ,或 使 用 CNN 时 的 输入 深度 ) 值 。 
InputTypes 也 可 以 用 于 其 他 类 型 的 层 (RNN、MLP 等 ) ， 而 不 仅仅 是 CNN。 
对 于 普通 的 图 像 ( 当 使 用 ImageRecordReader 时 ) 使 用 InputType.convolutional 
(height ,width ,depth ) 。 
NMNIST 记 录 读 取 器 是 一 种 特殊 情况 ， 它 以 "扁平 化 " 行 向 量 格式 〈 即 1x784 向 量 ) 输出 
28x28 像 素 的 灰 度 (nChannels=1) 图 像 ， 因 此 这 里 使 用 的 输入 类 型 是 
"convoLutionaLFLat '" 。 
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MultiLayerNetwork model = new MultiLayerNetwork(conf); 
model .init(); 


1. 通用 超 参数 
下 面 的 代码 片段 中 一 些 主要 的 超 参数 : 
.Seed(seed) 


.iterations(iterations) // 如 上 训练 迭代 
.regularization(true).12(0.0005) 


/* 














为 学 习 率 衰减 和 偏 置 打 开 注释 





* 

/ 

.learningRate( .01)//.biasLearningRate(0.02 
//.LearningRateDecayPoLicy(LearningRatePoLicy.Inverse).LrPoLicyDecayRate(0.001) . 
//LrPoLitcyPower(0.75) 

.weightInit(WeightInit.XAVIER) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

.Updater (Updater .NESTEROVS) .momentum(0.9) 


下 面 的 列表 解释 了 如 何 设置 这 些 超 参数 以 及 我 们 为 它们 设置 的 f 


口 正则 化 
在 这 里 ， 正 则 化 被 开启 (设置 为 true)，L2 正则 化 的 参数 被 设置 为 0.0005。 


口 权重 初始 化 
对 于 这 个 LeNet 架构 的 示例 ，Xavier 权重 初始 化 策略 表现 良好 。 


口 优化 算法 
优化 算法 被 设置 为 SGD。 在 很 多 深度 学 习 的 例子 中 ，SGD 很 常见 ， 因 为 它 在 很 多 情况 
下 都 表现 良好 。 第 6 章 和 第 7 章 将 讨论 优化 算法 的 变 体 。 
口 更 新 器 
我 们 选择 Nesterov 作为 这 个 例子 的 更 新 器 ， 其 中 Nesterov 被 大 量 使 用 ， 因 为 它 在 实践 
中 效果 很 好 。 当 这 些 更 新 都 在 一 个 方向 上 进行 时 ， 通 常 Nesterov 会 增加 更 新 的 规模 。 
可 以 想象 一 下 ， 这 种 影响 就 像 我 们 要 登 一 座 平缓 但 非常 矮 的 山 ， 方 向 是 明确 的 ， 但 步子 
可 能 需要 更 大 些 。 








TI 
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2. 卷 积 层 
在 本 节 开 始 的 代码 示例 中 我 们 可 以 看 到 卷 积 层 的 一 般 模 式 和 第 4 章 描述 的 最 大 池 化 层 。 在 
下 面 的 示例 中 ， 我 们 会 看 到 LeNet 网 络 中 的 第 一 个 卷 积 层 。 
.layer(0, new ConvolutionLayer.Builder(5, 5) 
//nIn 和 nOut 指 定 深度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 的 过 滤器 的 数量 
.nIn(nChannels) 
.stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 


在 这 个 示例 中 ， 使 用 了 Java 建造 者 模式 设置 卷 积 层 的 属性 ， 来 了 解 其 中 每 个 属性 。 
口 过 滤器 的 大 小 
在 这 个 示例 中 ， 我 们 为 这 个 层 创建 一 个 5x5 大 小 的 过 滤器 。 
口 输入 数据 通道 

这 个 示例 的 通道 数量 被 设置 为 1!， 因 为 自 定义 数据 集 从 代 器 将 原始 图 像 自动 转换 为 黑白 
和 象 。 其 他 示例 也 许 需 要 定义 表示 图 像 数 据 中 RGB 通道 的 三 个 输入 通道 。 
口 步 长 
该 层 的 步 长 被 设置 为 (1,1)， 这 意味 着 当 过 滤器 在 输入 空间 滑动 时 ， 每 次 只 需要 向 右 ， 
然后 向 下 移动 一 步 。 


口 激 活 了 还 函数 
我 们 使 用 恒 等 函 数 作为 该 卷 积 层 的 输出 。 
注意 恒 等 激活 函数 


LeNet 网 络 架 构 (1998) 比 ReLU (2012) 出 现 得 早 。 卷 积 层 改 用 ReLU 后 加 
速 了 SGD 的 收 你 。 出 于 历史 原因 ， 这 个 例子 保持 了 原来 LeNet 架构 的 完整 性 。 





























WA 





























卷 积 层 与 激活 函数 
在 最 近 的 CNN 中 ， 经 常 使 用 ReLU 激活 国 数 建立 卷 积 








So 





3. 最 大 池 化 层 
下 面 是 紧 跟 在 第 一 个 卷 积 层 之 后 的 池 化 层 的 代码 。 


.layer(1, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 











.kernelSize(2,2) 
.Stride(2,2) 
.build()) 

以 下 为 层 属性 。 








口 最 大 池 化 层 
该 层 被 设置 为 最 大 池 化 层 ， 这 个 池 化 层 有 一 个 大 小 为 (2,2) 的 过 滤器 ， 这 意味 着 从 前 一 
层 的 5x5 过 滤器 下 采样 到 当前 层 的 2x2 网 格 。 
口 设置 池 化 层 步 长 
过 滤器 的 步 长 被 设置 为 (2,2)， 这 意味 着 它 将 在 水 平滑 动 时 前 进 两 个 值 ， 然 后 向 下 移动 
到 下 面 的 行 时 前 进 两 个 值 。 
4. 输出 层 
因为 正在 构建 (例如 数字 0~9) 的 分 类 模型 具有 两 个 以 上 标签 ， 所 以 我 们 需要 一 个 使 用 
softmax 激活 函数 的 输出 层 ， 如 下 所 示 : 


.layer(5, new OutputLayer .Builder(LossFunctions.LossFunction.NEGATIVELOGLIKELIHOOD) 











.NOut(outputNum) 
.activation(Activation.SOFTMAX) 
.build()) 
该 输出 层 使 用 负 对 数 似 然 损 失 函 数 (使 用 softmax 输出 层 时 常见 )， 并 且 输 出 单元 的 数量 等 








于 该 数据 集 的 类 别 或 标签 的 数量 。 


5.5.4 训练 CNN 网 络 


现在 已 经 建立 了 LeNet 卷 积 模型 架构 ， 我 们 可 以 初始 化 MultiLayerNetwork 对 象 以 在 输入 
数据 集 上 进行 训练 。 下 面 的 代码 片段 展示 如 何 从 上 一 节 中 获取 配置 并 设置 网 络 。 


MultiLayerNetwork model = new MultiLayerNetwork(conf); 
model .init(); 


通过 配置 模型 ， 现 在 可 以 在 输入 MNIST 数据 集 上 进行 所 需 轮 数 的 训练 ， 如 下 所 示 : 


Log.info(" Train model...."); 
model.setListeners(new ScoreIterationListener(1)); 
for( int i=0; i<nEpochs; i++ ) { 
model.fit(mnistTrain); 
log.info("*** Completed epoch {} ***", i); 




















Log.info("EvaLuate model...."); 
Evaluation eval = new EvaLuation(outputNum) ; 
while(mnistTest.hasNext()){ 
DataSet ds = mnistTest.next(); 
INDArray output = model.output(ds.getFeatureMatrix(), false); 
eval.eval(ds.getLabels(), output); 


} 
log.info(eval.stats()); 
mnistTest.reset(); 


} 


TLog. infoC"*w* 灾 火光 炎炎 炎炎 淡淡 光 灾 火焰 EXampLe 下 记 n 区 she@d 光 光 炎炎 淆 火光 次 光 灾 关 灾 光 光裕 尖 实 炎 淆 中 ) ， 


在 训练 的 循环 中 ， 使 用 了 与 MNIST 数据 集 友 代 器 将 小 批量 图 像 传 给 模型 的 .fit() 方法 的 
相同 的 模式 。 在 .fit() 方法 完成 当前 轮 之 后 ， 我 们 根据 测试 MNIST 数据 集 检查 模型 的 训 




















A 
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练 情 况 。 这 样 就 能 看 到 随 着 训练 一 轮 一 轮 的 进行 ，Fl 分 数 逐 步 变化 。 随 着 时 间 的 推移 ， 应 
该 会 看 到 评估 分 数 上 升 ， 损 失 函 数 误 差 下降。 


5.6 ”基于 RNN 的 序列 数据 建 模 


本 市 通过 两 个 例子 展示 RNN 的 生成 和 判别 能 力 ， 生 成 莎士比亚 风格 的 作品 和 分 类 时 间 序 列 。 


5.6.1 通过 LSTM 生 成 莎士比亚 风格 作品 

从 一 个 有 趣 的 例子 一 一 对 莎士比亚 的 作品 建 模 开 始 。 在 这 个 例子 中 ， 我 们 训练 一 个 LSTM 
RNN 生成 莎士比亚 的 作品 (准确 地 说 是 “莎士比亚 风格 的 作品 ”)。 注 意 ， 我 们 将 文本 视 为 
字符 序列 ， 并 且 模 型 基于 它 过 去 遇 到 的 字符 预测 下 一 个 最 有 可 能 的 字符 。 你 还 可 以 调整 该 
模型 以 处 理 其 他 常见 的 序列 数据 ， 比 如 将 在 下 一 个 示例 中 看 到 的 日 志 数 据 或 传感器 数据 。 
RNN 不 可 思议 的 有 效 性 

这 个 例子 部 分 受到 了 Andrej Karpathy 的 博文 “The Unreasonable Effectiveness 

of Recurrent Neural Networks” 的 启发 。 








训练 LSTM 的 源 文本 
这 个 例子 基于 从 古 腾 堡 计划 ! 下 载 的 《威廉 : 莎士比亚 全 集 》 进 行 训练 , 基于 
其 他 文本 来 源 的 训练 应 该 也 比较 容易 实现 。 





1. 高 级 别 的 建 模 工作 流 
这 个 例子 介绍 在 DL4J 中 建立 RNN 架构 的 概念 ， 其 建立 在 我 们 从 之 前 的 例子 中 学 到 的 一 些 
概念 的 基础 上 ， 比 如 : 


加 载 输入 数据 集训 练 ， 
配置 网 络 架 构 。 


我 们 还 将 介绍 专门 支持 RNN 的 DL4J API 的 一 些 新 的 组 件 。 这 个 例子 学 习 莎 士 比 亚 作 品 的 
每 个 字符 ， 然 后 ， 我 们 要 求 模 型 基于 学 到 的 模式 生成 新 的 原创 作品 。 


运行 这 个 例子 时 ， 可 以 看 到 输出 不 断 变化 ， 一 开始 产生 的 输出 如 下 所 示 : 


~- Sample 0 ----- 
lnee! 
Lhir tape shepyang? Nocw; mame. Budt hlant'nthely Ler ild 
Py theu sfochill'ad my and ocs im nereepapd werer; 
Motadid. Mert hatterhirl. Iit nesdoesd'nlowhednanieivetranns deugheuind 
Bred yetide rathane fojlond thivh uweet. 
Thy lametom theuegfast lart souclalitoloe ilntangylrt or 





























注 1: 威廉 :莎士比亚 全 集 (https://www.gutenberg.org/ebooks/100)， 文 件 大 小 5.3MB，UTF-8 编码 ， 约 540 
万 个 字符 。 
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----- Sample 1 ----- 
1,, ne agly 
Lot Bolncanbom bavantenfircasle womlidibl. 
NTERIOO. IrdmisfUoItolleeeddortiss hot buye. 
The hetenle of ile, 
'merlliydingiponI, bomgule? Shurtstarer of ate, 
Onbibly ot ire pomxatgillant, dakl. 
Oxt Mtanlonfye wiudsimotime raugadent deu'y ondtstes. 
If vonee. 
Whol touEde 


之 后 产生 的 输出 如 下 所 示 : 


----- Sample 0 ----- 
ous reward me, Master Warce! I-will stay 
shall; for I one as mine lord. 
CLOTEN. Come, I will thigh, i'; and what wam! Hath dravelly 
The albowed out, Aside dismernicges could be a 
druck than there's thoughts, here is we with me and rag. 
Thou shalt love it doth my child. 
PERDITA. Ti 





Incie Paties, go, thurst with thy flounds by the bands. Exit COURSTIO 
FLORIZEL. Uncle, an if you, 

Abassom the man, 

Stars, yoyu spite-hath loved. 
QUEEN MANGER On stay is! Who is mer? 
CLOTEN. Hang't, what I'LL remain, 

Cap nothes same so here; 

My tens 


下 面 来 看 看 这 个 例子 的 Java 代码 。 

2. 对 莎士比亚 作品 建 模 的 Java 代 码 

示例 5-3 列 出 了 示例 的 完整 代码 (http://bit.ly/2sUs2PU)。 
示例 5-3 ”利用 DL4J 的 LSTM 对 莎士比亚 作品 建 模 及 生成 


public class GravesLSTMCharModellingExample { 
public static void main( String[] args ) throws Exception { 





























int lstmLayerSize = 200; // 每 个 GravesLSTM 层 中 的 单元 数 

int miniBatchSize = 32; // 训 练 时 用 到 的 小 批量 的 大 小 

int exampleLength = 1000; // 要 用 的 每 个 样本 序列 的 大 小 
// 这 个 值 当 然 可 以 增 大 

int tbpttLength = 50; // 截 断 基 于 时 间 的 反 向 传播 长 度 ， 
// 即 每 50 个 字符 做 一 次 参数 更 新 

int numEpochs = 1; // 总 的 训练 轮 数 


int generateSamplesEveryNMinibatches = 10; // 从 网 络 生成 样本 的 频 度 。1000 字 
// 符 /50tbptt 长 度 ， 每 个 小 批量 更 














// 新 20 个 参数 
int nSamplesToGenerate = 4; // 每 轮训 练 后 生成 的 样本 的 数量 
int nCharactersToSampLe = 300; // 生 成 的 每 个 样本 的 长 度 
String generationInitialization = null; // 可 选 的 字符 初始 化 ， 如 果 为 空 ， 
// 那 么 会 使 用 随机 字符 
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// 上 面 的 代码 被 用 来 "事先 指导 "LSTM 使 用 一 个 字符 序列 去 继续 /结束 。 


// 初 始 化 字符 默认 必须 全 部 在 CharacterIterator .getMinimalCharacterSet() 中 。 








也 





Random rng = new Random(12345 ) ; 

















// 得 到 一 个 DataSetIterator， 它 将 文本 向 量 存 入 那些 可 以 用 于 训练 GravesLSTN 网 络 
// 的 对 象 中 。 

//GravesLSTM 网 络 

CharacterIterator iter = getShakespeareIterator(miniBatchSize,exampleLength); 
int nOut = iter.totalOutcomes(); 





// 设 置 网 络 配置 : 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 


.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 
.learningRate(0.1) 
.rmsDecay(0.95) 
.Seed(12345) 
.regularization(true) 
.12(0.001) 
.weightInit(WeightInit.XAVIER) 
.Updater (Updater .RMSPROP) 
.list() 
.layer(0, new GravesLSTM.Builder().nIn(iter.inputColumns()) 
.NOut(lstmLayerSize) 
.activation(Activation.TANH).build()) 
.layer(1, new GravesLSTM.Builder().nIn(lstmLayerSize).nOut(lstmLayerSize) 
.activation(Activation.TANH).build()) 
.layer(2, new RnnOutputLayer .Builder(LossFunction.MCXENT) 
.activation(Activation.SOFTMAX) ”// 用 于 分 类 的 MCXENT+softmax 
.NIn(lstmLayerSize).nOut(nOut).build()) 
.backpropType(BackpropType.TruncatedBPTT).tBPTTForwardLength(tbpttLength) 
.tBPTTBackwardLength(tbpttLength) 
.pretrain(false).backprop(true) 
.build(); 








MultiLayerNetwork net = new MultiLayerNetwork(conf); 
net.init(); 
net.setListeners(new ScoreIterationListener(1)); 


// (为 每 层 ) 打印 网 络 中 参数 的 数量 
Layer[] layers = net.getLayers(); 

int totaLNumParams = 0; 

for( int i=0; i<layers.length; i++ ){ 


} 


System.out.println("Total number of network parameters: 





int nParams = layers[i].numparams(); 
System.out 

.printLn("Number of parameters in layer 
totalNumParams += NnParams; 


"+i+": "+ nNParams); 


+ totaLNumParams ) ; 


// 进 行 训 练 ， 然 后 生成 和 打印 来 自 网 络 的 样本 
int miniBatchNumber = 0; 
for( int i=0; i<numEpochs; i++ ){ 

















while(iter.hasNext()){ 
DataSet ds = iter.next(); 








net .fit(ds); 
if(++miniBatchNumber % generateSamplesEveryNMinibatches == 0){ 
System.out.printLn("-------------------- 人 
System.out.printLn("CompLeted " + miniBatchNumber + 
" minibatches of size 
+ " characters" ); 
System.out.println("Sampling characters from network 
given initialization \"" + 
(generationInitialization == null ? "": 
generationInitialization) + "\""); 
String[] samples = sampleCharactersFromNetwork( 
generationInitialization,net,iter,rng,nCharactersToSample, 
nSamplesToGenerate); 
for( int j=0; j<samples.length; j++ ){ 
System.out.printLn("----- Sample " 
System.out.println(samples[j]); 
System.out.println(); 


+ miniBatchSize + "x" + exampleLength 


a "); 


} 


iter.reset(); // 为 另 一 轮 重 置 迭代 器 
} 


System.out.println("\n\nExample complete"); 


} 


/** 下 载 莎 士 比 亚 训练 数据 ， 并 保存 在 本 地 (临时 文件 夹 ) 。 
* 然后 设置 和 返回 一 个 简单 的 、 基 于 文本 进行 向 量化 的 DataSetIterator。 
* @param miniBatchsize 每 个 训练 小 批量 的 文本 段 的 数量 
* @param sequenceLength 每 个 文本 段 中 的 字符 数 。 
* 
/ 
public static CharacterIterator getShakespeareIterator(int miniBatchSize, 
int sequenceLength) throws Exception{ 
// 威 廉 : 莎 士 比 亚 全集 
// 文 件 大 小 5.3MB，UTF-8 编 码 ， 约 540 万 个 字符 。 
//https://www.gutenberg.org/ebooks/100 
String url = "https://s3.amazonaws.com/dl4j-distribution/pg100.txt"; 
String tempDir = System.getProperty("java.io.tmpdir"); 
String fileLocation = tempDir + "/Shakespeare.txt"; // 下 载 文 件 的 存储 位 置 
File f = new File(fileLocation); 
if( !f.exists() ){ 
FileUtils.copyURLToFile(new URL(ur1), f); 
System.out.println("File downloaded to " + f.getAbsolutePath()); 
} else { 
System.out.println("Using existing text file at " + f.getAbsolutepath()); 












































} 


if(!f.exists()) throw new IOException("File does not exist: 


fileLocation); // 下 载 问题 ? 
// 允 许 哪 些 字 符 ? 其 他 的 将 被 移 除 


char[] validCharacters = CharacterIterator.getMinimalCharacterSet(); 
return new CharacterIterator(fileLocation, Charset.forName("UTF-8"), 
miniBatchSize, sequenceLength, validCharacters, new Random(12345)); 


本 
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} 


/** 根据 给 定 初始 化 值 (可 选 ， 有 可 能 是 nutl) ， 从 网 络 生成 样本 。 
* 初始 化 值 被 用 来 "事先 指导 "RNN 使 用 一 个 你 想 拓展 /继续 处 理 的 序列 。 
* 注意 初始 化 值 用 于 所 有 样本 。 
































* @param initialization 字符 串 ， 可 能 为 nuLL。 如 果 为 nuLL， 则 为 所 有 样本 选择 一 个 
* 随机 字符 作为 初始 化 值 
* @param charactersToSampLe 要 从 网 络 中 采样 的 字符 数 (排除 初始 化 值 ) 
* @param net 带 有 一 个 或 多 个 GravesLSTM/RNN 层 的 MuLttLayerNetwork， 以 及 一 个 
* softmax 输 出 层 
* @param iter CharacterIterator. 用 于 从 索引 回 到 字符 
* 
/ 


private static String[] sampleCharactersFromNetwork(String initialization, 

MultiLayerNetwork net, 
CharacterIterator iter, 
Random rng, 
int charactersToSample, 
int numSamples ){ 

// 设 置 初始 化 值 。 如 果 没 有 设置 初始 化 值 ， 则 使 用 一 个 随机 字符 

if( initialization == null ){ 

initialization = String.valueOf(iter.getRandomCharacter()); 


} 
// 初 始 化 输入 


INDArray initializationInput = Nd4j.zeros(numSamples, iter.inputColumns(), 
initialization. Length()); 
char[] init = initialization.toCharArray(); 
for( int i=0; i<init.length; i++ ){ 
int idx = iter.convertCharacterToIndex(init[i]); 
for( int j=0; j<numSamples; j++ ){ 
initializationInput.putScalar(new int[]{j,idx,i}, 1.0f); 
} 
} 


StringBuilder[] sb = new StringBuilder[numSamples]; 
for( int i=0; i<numSamples; i++ ) sb[i] = new StringBuilder(initialization); 


// 从 网 络 采样 (并 将 样本 反馈 到 输入 ) ， 一 次 一 个 字符 (对 所 有 样本 ) 

// 这 里 的 采样 并 行 执行 

net.rnnClearpreviousState(); 

INDArray output = net.rnnTimeStep(initializationInput); 

output = output. tensorAlLongDimension(output.size(2)-1,1,0); // 取 得 上 一 个 


// 时 间 步 的 输 则 








上 上 


for( int i=0; i<charactersToSample; i++ ){ 
// 通 过 对 前 一 个 输出 采样 ， 来 设置 下 一 个 输入 (一 个 时 间 步 ) 
INDArray nextInput = Nd4j.zeros(numSamples,iter.inputColumns()); 
// 输 出 呈 概 率 分 布 。 对 于 每 个 我 们 想 生 成 的 样本 ， 从 输出 采样 ， 然 后 加 到 新 的 输 
// 入 中 
for( int s=0; s<numSamples; s++ ){ 
double[] outputProbDistribution = new double[iter.totalOutcomes()]; 
for( int j=0; j<outputProbDistribution.length; j++ ) 
outputProbDistribution[j] = output.getDouble(s,j); 
int sampledCharacterIdx = 
sampleFromDistribution(outputProbDistribution,rng); 
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nextInput.putScaLar(new int[]{s,sampledCharacterIdx}, 1.0f); 
// 准 备 下 一 个 时 间 步 的 输入 
sb[s].append(iter .convertIindexToCharacter(sampledCharacterIdx)); 


// 把 采样 的 字符 加 到 StringBuilder (人 类 可 读 的 输出 ) 

















} 
output = net.rnnTimeStep(nextInput); // 执 行 一 次 前 向 传递 的 时 间 步 


} 


String[] out = new String[numSamples]; 
for( int i=0; i<numSamples; i++ ) out[i] = sb[il].toString(); 
return out; 


} 


/** 给 定 离散 类 别 上 的 概率 分 布 ， 从 分 布 中 采样 并 返回 生成 的 类 别 的 索引 
* @param distribution 离散 类 别 上 的 概率 分 布 。 总 和 必须 为 1.0 
* 
/ 
public static int sampleFromDistribution( double[] distribution, Random rng ){ 
double d = rng.nextDouble(); 
double sum = 0.0; 
for( int i=0; i<distribution.length; i++ ){ 
sum += distribution[i]; 
if( d <= sum ) return i; 























} 

// 如 果 分 布 是 有 效 的 概率 分 布 ， 这 里 不 会 被 执行 

throw new IllegalArgumentException("Distribution is invalid? d="+d+"， 
Sum="+Sum) ; 


} 
下 面 会 讨论 这 段 代 码 ， 并 解释 其 主要 部 分 如 何 协同 工作 来 对 莎士比亚 作品 进行 建 模 和 生成 。 


3. 输入 数据 的 建立 与 向 量化 
输入 数据 由 示例 中 包含 的 支持 类 自动 下 载 并 转换 为 NDArray， 如 下 面 的 代码 片段 所 示 : 


CharacterIterator iter = getShakespeareIterator(miniBatchSize,exampleLength); 
对 其 有 兴趣 的 读者 可 研究 它 如 何在 幕后 工作 。 


4. LSTM 网 络 架 构 
就 像 前 两 个 例子 一 样 ， 这 里 使 用 相同 的 构造 器 模式 建立 LSTM 网 络 的 层 。 


// 配 置 网 络 : 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 
.learningRate(0.1) 
.rmsDecay(0.95) 
.Seed(12345) 
.regularization(true) 
.12(0.001) 
.weightInit(WeightInit.XAVIER) 
.Updater (Updater .RMSPROP) 
.list() 
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.Layer(0，new GravesLSTM.Builder().nIin(iter.inputColumns()) 
.nOut(LstmLayerSize) 
.activation(Activation.TANH) .butLLd()) 
.Layer(1，new GravesLSTM.Builder().nIn(lstmLayerSize).nOut(lstmLayerSize) 
.activation(Activation.TANH) .build()) 
.Layer(2，new RnnOutputLayer .Builder(LossFunction.MCXENT) 
.activation(Activation.SOFTMAX) // 用 于 分 类 的 MCXENT+softmax 
.NIn(lstmLayerSize).nOut(nOut).build()) 
.backpropType(BackpropType.TruncatedBPTT).tBPTTForwardLength(tbpttLength) 
.tBPTTBackwardLength(tbpttLength) 
.pretrain(false).backprop(true) 
.build(); 


关于 超 参 数 的 通用 说 明 。 在 这 个 例子 中 ，SGD 再 次 用 作 优 化 算法 ， 学 习 率 设置 为 6.1， 正 
则 化 是 打开 的 ，L2 设置 为 0.991， 更 新 器 是 RMSPROP， 这 一 点 与 迄今 为 止 我 们 看 到 的 其 他 
例子 不 同 。 
口 隐藏 层 
对 输出 层 之 外 的 层 使 用 特殊 的 GravesLSTM 层 和 anh 激活 函数 。 
口 输出 层 

俞 出 层 与 我 们 目前 为 止 所 看 到 的 不 同 ， 因 为 使 用 了 特殊 的 RnnOutputLayer 处 理 RNN 可 

能 给 出 的 不 同类 型 的 输出 ， 如 下 所 示 : 

.layer(2, new RnnOutputLayer .Builder(LossFunction.MCXENT) 


.activation(Activation.SOFTMAX) // 用 于 分 类 的 MCXENT+softmax 
.NIn(lstmLayerSize).nOut(nOut).build()) 


即使 再 次 在 输出 层 使 用 了 softmax 激活 函数 ， 这 里 使 用 的 损失 函数 依然 是 LossFunction.MCXENT。 


RMSProp 在 实践 中 的 应 用 

RMSProp 的 设计 对 更 新 规模 具有 规范 化 作用 ， 这 意味 着 使 用 此 更 新 器 时 ， 量 
级 不 同 的 参数 (不 同 层 ， 或 同一 层 中 的 不 同 参数 ) 在 更 新 后 ， 最 终 大 小 将 大 
致 相同 。 




































































5. 训练 LSTM 网 络 
下 面 的 代码 示例 演示 了 如 何 训练 网 络 。 


// 进 行 训练 ， 然 后 生成 和 打印 来 自 网 络 的 样本 
int miniBatchNumber = 0; 
for( int i=0; i<numEpochs; i++ ){ 
while(iter.hasNext()){ 
DataSet ds = iter.next(); 
net.fit(ds); 
if(++miniBatchNumber % generateSamplesEveryNMinibatches == 0){ 
System.out.println("-------------------- Os 
System.out.println("Completed " + miniBatchNumber + 
" minibatches of size " + miniBatchSize + 
浴 . 雪 characters" ); 





x" + exampleLength + 
System.out.println("Sampling characters from network given 
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initialization \"" 
generationInitialization) + "\""); 
String[] samples = 


sampleCharactersFromNetwork( 


+ (generationInitialization == null ? "": 


generationInitialization,net,iter,rng,nCharactersToSample, 


nSamplesToGenerate); 
for( int j=0; j<sampLes.Length; j++ ){ 
System.out.println("----- Sample "+j+" ----- "); 
System.out.println(samples[j]); 


System.out.println(); 


} 
iter.reset(); // 为 另 一 轮 重 置 和 迭代 器 





} 


System.out.println("\n\nExample complete"); 


这 个 示例 使 用 DL4J API 的 方式 有 点 不 同 。 与 迭代 器 本 身 调 用 .fit() 方法 相反 ， 这 里 它 在 
小 批量 上 被 显 式 调 用 ， 使 得 我 们 可 以 更 好 地 控制 在 小 批量 上 调用 .fit() 之 间 所 能 做 的 事 





青 。 这 段 代 码 让 我 们 不 用 考虑 莎士比亚 数据 集 的 输入 过 程 ， 而 从 网 络 生 成 样本 。 
随 着 训练 的 进行 ， 从 控制 台 的 输出 可 以 看 出 ， 训 练 期 间 损 失 函 数 误 差 逐 渐 减少 。 

















d.o.L.ScoreIterationListener - Score at iteration 0 is 217.28348109866505 
d.o.L.ScoreIterationListener - Score at iteration 1 is 213.24020789706773 
d.o.L.ScoreIterationListener - Score at iteration 2 is 212.96001041971766 
d.o.L.ScoreIterationListener - Score at iteration 3 is 175.06079409241767 
d.o.L.ScoreIterationListener - Score at iteration 4 is 165.25272077487378 


= 





这 个 示例 中 出 现 了 与 前 面 的 代码 片段 类 似 的 输出 ， 正 在 进行 的 网 络 周期 性 地 输出 生成 的 名 














子 样本 。 
6. 生成 水 士 比 亚 作品 的 样本 


为 了 从 网 络 生成 样本 ， 我 们 调用 示例 中 列 出 的 支持 方法 ， 该 方法 从 模型 生成 一 段 合 
本 ， 如 下 所 示 : 





成 的 文 


String[] samples = sampleCharactersFromNetwork(generationInitialization,net,iter, 


rng,nCharactersToSample,nSamplesToGenerate); 
for( int j=0; j<sampLes.Length; j++ ){ 
System.out.println("----- Sample " 
System.out.println(samples[j]); 
System.out.println(); 


全 j 和 "); 


} 
这 是 在 训练 期 间 周期 性 向 控制 台 打 印 输出 的 代码 的 一 部 分 。 


5.6.2 ”基于 LSTM 的 传感器 时 间 序 列 分 类 


下 面 看 一 个 使 用 LSTM RNN 对 序列 进行 分 类 的 例子 。 我 们 使 用 加 州 大 学 尔 注 分 校 
机 器 学 习 库 的 合成 控制 图 表 时 间 序 列 数据 集 。 这 个 代码 示例 将 建立 一 个 模型 来 将 单 








(UCI) 
变量 时 





间 序 列 分 为 以 下 六 类 : 








图 5-1 展示 了 以 上 各 类 的 示例 图 像 泻 染 。 














op 











5-1: 来 自 UCI 库 的 合成 时 间 序 列 示例 


这 六 类 序列 是 在 姐 入 式 传感器 领域 生成 的 真实 数据 的 一 个 很 好 的 例子 ， 给 了 我 们 一 个 实用 
的 数据 集 来 操作 。 
1. 循环 分 类 示例 的 Java 代 码 列 表 
示例 5-4 给 出 了 下 一 个 示例 的 Java 代码 (http://bit.ly/2tZM946)， 即 循环 分 类 示例 ， 代 码 中 
建立 了 一 个 模型 来 对 “UCI 合成 控制 图 表 时 间 序 列 数 据 集 ” 中 的 序列 进行 分 类 。 
示例 5-4 UCI 序列 分 类 示例 的 Java 代码 

public class UCISequenceClassificationExample { 


private static final Logger log = LoggerFactory 
.getLogger(UCISequenceClassificationExample.class); 


























/1'baseDir'; 数据 保存 的 父 目录 。 如 果 想 把 数据 保存 到 其 他 目录 ， 则 修改 它 的 值 。 
private static File baseDir = new File("src/main/resources/uci/"); 

private static File baseTrainDir = new File(baseDir, "train"); 

private static File featuresDirTrain = new File(baseTrainDir, "features"); 
private static File labelsDirTrain = new File(baseTrainDir, "labels"); 
private static File baseTestDir = new File(baseDir, "test"); 











private static File featuresDirTest = new File(baseTestDir, "features'" ) ; 
private static File labelsDirTest = new File(baseTestDir, "labels"); 


public static void main(String[] args) throws Exception { 


downLoadUCIData( ) ; 


人 加 载 训练 数据 ----- 

// 注 意 我 们 有 456 个 要 训练 的 特征 文件 : 从 train/features/0.csv 到 train/ 

//features/449.csv 

SequenceRecordReader trainFeatures = new CSVSequenceRecordReader(); 

trainFeatures.initialize(new NumberedFileInputSplit(featuresDirTrain 
.getAbsolutepath() + "/%d.csv", 0, 449)); 

SequenceRecordReader trainLabels = new CSVSequenceRecordReader(); 

trainLabels.initialize(new NumberedFileInputSplit(labelsDirTrain 
.getAbsolutepath() + "/%d.csv", 0, 449)); 


int miniBatchSize = 10; 

int numLabelClasses = 6; 

DataSetIterator trainData = new SequenceRecordReaderDataSetIterator( 
trainFeatures, trainLabels, miniBatchSize, numLabelClasses, 
false, SequenceRecordReaderDataSetIterator.AlignmentMode .ALIGN_END); 





// 规 范 化 训练 数据 


DataNormalization normalizer = new NormalizerStandardize(); 
normalizer .fit(trainData); / /收集 训练 数 据 统 计 信息 
trainData.reset(); 


// 使 用 前 面 收集 的 统计 信息 来 进行 动态 规范 化 。 由 "trainData 迭代 器 返回 的 每 个 
// 数 据 集 都 会 被 规范 化 。 


traitnData.setPreProcessor(normaLizer ); 





es 加 载 测试 数据 ----- 

// 与 训练 数据 相同 的 处 理 过 程 。 

SequenceRecordReader testFeatures = new CSVSequenceRecordReader(); 

testFeatures.initialize(new NumberedFileInputSplit(featuresDirTest 

.getAbsolutepath() + "/%d.csv", 0, 149)); 

SequenceRecordReader testLabels = new CSVSequenceRecordReader(); 

testLabels.initialize(new NumberedFileInputSplit( 
labelsDirTest.getAbsolutepath() + "/%d.csv", 0, 149)); 








DataSetIterator testData = new SequenceRecordReaderDataSetIterator( 
testFeatures, testLabels, miniBatchSize, numLabelClasses, 
false, SequenceRecordReaderDataSetIterator.AlignmentMode.ALIGN_END); 


testData.setPreProcessor(normalizer);  // 注 意 这 里 使 用 的 正 是 对 训练 数据 使 用 
// 的 同一 个 规范 化 过 程 





//----- 配置 网 络 ----- 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.seed(123) ”// 随 机 数字 生成 的 种 子 ， 用 于 提升 可 重复 性 。 可 选 。 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

.iterations(1) 
.weightInit(WeightInit.XAVIER) 























.Updater(Updater .NESTEROVS ) .momentum(0.9) 
.learningRate(0.005) 
.gradientNormalization(GradientNormalization 


.ClipElementWiseAbsoluteValue) 


// 并 非 每 次 都 需要 ， 不 过 对 这 个 数 


// 据 集 有 用 


.gradientNormalizationThreshold(0.5) 


.list() 


.layer(0, new GravesLSTM.Builder().activation(Activation.TANH).nIn(1) 
.NOut(10).build()) 
.layer(1, new RnnOutputLayer .Builder(LossFunctions.LossFunction 
.MCXENT) 
.activation(Activation.SOFTMAX).nINn(10).nOut(numLabelClasses) 


.build()) 


.pretrain(false).backprop(true).build(); 


MultiLayerNetwork net = 


net.init(); 


new MultiLayerNetwork(conf); 





net.setListeners(new ScoreIterationListener(20)); // 每 执行 20 次 迭代 打印 


/ss 训练 网 络 ， 每 轮训 练 后 都 评估 测试 数据 的 表现 


int nEpochs = 40; 





// 一 次 分 数 损 失 函 数值 ) 


String str = "Test set evaluation at epoch %d: Accuracy = %.2f, F1 = %.2f"; 
for (int i = 0; i < nEpochs; i++) { 
net.fit(trainData); 


// 使 用 测试 数据 集 记 
Evaluation evaluation = net.evaluate(testData); 
log.info(String.format(str, i, evaluation.accuracy(), evaluation.f1())); 


佑 : 





testData.reset(); 
trainData.reset(); 


} 


log.info("----- Example Complete ----- )s 


// 这 个 方法 下 载 数 据 ， 并 





tt 


将 














从 "每 行 一 个 时 间 序 列 " 的 格式 转化 为 


//DataVec(CsvSequenceRecordReader) 和 DL4J 可 读 的 合适 的 CSV 序 列 形式 。 
private static void downLoadUCIData() throws Exception { 


if (baseDir.exists()) return; // 如 果 数 据 已 存在 


String url = 








E， 不 要 再 次 下 载 





"https://archive.ics.uci.edu/ml/machine-learning-databases/ 
synthetic control-mld/synthetic control.data"; 
String data = IOUtils.toString(new URLCUrL) ) ; 


String[] Lines = data.split("\n"); 


// 创 建 目录 
baseDir .mkdir(); 


baseTrainDir.mkdir(); 
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featuresDirTrain.mkdir(); 
labelsDirTrain.mkdir(); 
baseTestDir .mkdir(); 
featuresDirTest.mkdir(); 
labelsDirTest.mkdir(); 


int lineCount = 0; 
List<Pair<String, Integer>> contentAndLabels = new ArrayList<>(); 
for (String line : lines) { 

String transposed = line.replaceAll(" +", "\n"); 


// 标 签 : 前 100 个 样本 ( 行 ) 的 标签 是 9， 第 二 组 100 个 样本 的 标签 是 :， 以 此 类 推 


contentAndLabels.add(new Pair<>(transposed, lineCount++ / 100)); 





} 


// 随 机 分 配 训练 和 测试 数据 : 
Collections.shuffle(contentAndLabels, new Random(12345)); 


int nTrain = 450; /1/75% 训 练 ，25% 测 试 

int trainCount = 0; 

int testCount = 0; 

for (Pair<String, Integer> p : contentAndLabels) { 
// 在 适当 的 路 径 以 可 读 的 形式 写 入 输出 
File outPathFeatures; 
File outPathLabeLs ; 
if (trainCount < nTrain) { 





outpPathFeatures = new File(featuresDirTrain, trainCount + ".csv"); 
outpPathLabeLs = new File(labelsDirTrain, trainCount + ".csv"); 
trainCount++; 

} else { 
outpPathFeatures = new File(featuresDirTest, testCount + ".csv"); 


outPpathLabels = new File(labelsDirTest, testCount + ".csv"); 
testCount++; 


} 


FileUtils.writeStringToFile(outPpathFeatures, p.getFirst()); 
FileUtils.writeSstringToFile(outPpathLabels, p.getSecond().toString()); 


} 
下 面 分 别 解 释 代 码 的 各 个 部 分 。 
2. 设置 输入 数据 和 向 量化 
在 示例 5-4 中 ， 不 需要 手动 获取 数据 ， 因 为 downLoadUCIData( ) 方法 会 帮 有 我 们 做 这 件 事 。 它 
还 将 600 个 时 间 序 列 样本 分 成 含 450 个 样本 的 训练 集 和 含 150 个 样本 的 测试 集 。 之 后 ， 为 
了 进行 序列 分 类 ， 它 使 用 CSVsequenceRecordReader 加 载 数据 ， 然 后 将 数据 写 为 适合 加 载 的 
格式 。 这 种 格式 的 每 个 文件 都 有 一 个 时 间 序 列 ， 标 签 在 另 一 个 单独 的 文件 中 。 


例如 train/features/0.csv 表示 特征 的 记录 为 0， 而 文件 train/labels/0.csv 表示 标签 的 记录 为 
0。 因 为 数据 是 单 变 量 时 间 序 列 ， 所 以 在 CSV 文件 中 只 有 一 列 。 通 常 每 列 包含 多 个 值 ( 例 
如 每 行 一 个 时 间 步 )。 此 外 ， 因 为 每 个 时 间 序 列 只 有 一 个 标签 ， 所 以 标签 CSV 文件 只 包含 
单个 值 。 
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如 果 只 看 如 下 所 示 的 加 载 训练 数据 部 分 的 代码 ， 可 以 看 到 如 何 使 用 DL4J 中 的 


SequenceRecordReader 读 取 CSV 文件 *， 创 建 标 签 ， 然 后 创建 一 个 DatasetIterator 来 处 理 








这 种 特定 类 型 的 序列 数据 。 





//----- 加 载 训 练 数 据 ----- 

// 注 意 我 们 有 459 个 要 训练 的 特征 文件 : 从 train/features/0.csv 到 train/features/449.csv 

SequenceRecordReader trainFeatures = new CSVSequenceRecordReader(); 

trainFeatures.initialize(new NumberedFileInputSplit(featuresDirTrain 
.getAbsolutepath() + "/%d.csv", 0, 449)); 

SequenceRecordReader trainLabels = new CSVSequenceRecordReader(); 

trainLabels.initialize(new NumberedFileInputSplit(labelsDirTrain 
.getAbsolutepath() + "/%d.csv", 0, 449)); 








int miniBatchSize = 10; 

int numLabelClasses = 6; 

DataSetIterator trainData = new SequenceRecordReaderDataSetIterator(trainFeatures, 
trainLabels, miniBatchSize, numLabelClasses, 
false, SequenceRecordReaderDataSetIterator.AlignmentMode.ALIGN_END); 


// 规 范 化 训练 数据 


DataNormalization normalizer = new NormaLizerStandardize(); 


normalizer .fit(trainData); // 收 集训 练 数据 统计 信息 
trainData.reset(); 


// 使 用 前 面 收集 的 统计 信息 来 进行 动态 规范 化 。 由 "trainData ' 友 代 器 返回 的 每 个 数据 集 都 
// 会 被 规范 化 。 


trainData.setPreProcessor(normalizer); 















































在 这 段 代 码 最 后 ， 可 以 看 到 DataNormalizer 对 象 被 创建 来 收集 数据 集 统 计数 据 。 这 使 得 我 


们 能 够 收集 全 局 数据 集 统计 数据 ， 并 规范 化 训练 数据 ， 以 便 更 好 地 训练 。 


3. 网 络 架 构 与 训练 
我 们 的 神经 网 络 的 基础 架构 是 LSTM RNN,， 在 下 面 的 代码 片段 中 它 与 MultiLayerConfiguration 
对 象 一 起 被 设置 。 





//----- 配置 网 络 ----- 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.seed(123) ”// 随 机 数字 生成 的 种 子 ， 用 于 提升 可 重复 性 。 可 选 。 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

.iterations(1) 
.weightInit(WeightInit.XAVIER) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.learningRate(0.005) 
.gradientNormalization(GradientNormalization 
.ClipElementWiseAbsoluteValue) // 并 非 每 次 都 需要 ， 不 过 对 这 个 数据 集 有 用 
.gradientNormalizationThreshold(0.5) 
.list() 
.layer(0, new GravesLSTM.Builder().activation(Activation.TANH).nInNn(1) 
.NOut(10).build()) 
.layer(1, new RnnOutputLayer .Builder(LossFunctions.LossFunction.MCXENT) 
.activation(Activation.SOFTMAX).nINn(10).nOut(numLabelClasses) 
.build()) 
.pretrain(false).backprop(true) .build(); 
































主 2 : 





有 关 这 一 步 的 更 多 细节 ， 请 访问 http://deeplearning4j.org/usingrnns#data。 








这 里 只 需要 一 个 连接 到 softmax 输出 层 的 单个 LSTM 层 ， 使 用 XAVIER 权重 初始 化 方法 与 
NESTEROVS 更 新 策略 ， 并 设置 学 习 率 为 9.005。 


如 同 其 他 代码 示例 一 样 ， 执 行 多 轮训 练 ， 直 到 误差 率 下 降 到 一 定 程度 ， 如 以 下 代码 所 示 : 


人 训练 网 络 ， 每 轮训 练 后 都 评估 测试 数据 的 表现 ----- 
int nEpochs = 40; 
String str = "Test set evaLuation at epoch %d: Accuracy = %.2f, F1 = %.2f"; 
for (int i = 0; i < nEpochs; i++) { 
net.fit(trainData); 




















// 使 用 测试 数据 集 评估 : 
Evaluation evaluation = net.evaLuate(testData) ; 
log.info(String.format(str, i, evaluation.accuracy(), evaluation.f1())); 





testData.reset(); 
trainData.reset(); 


} 
log.info("----- Example Complete ----- "Ds 


这 里 再 次 调用 了 .fit() 方法 训练 向 量化 和 规范 化 后 的 输入 训练 集 。 之 后 使 用 Evaluation 
对 象 来 衡量 神经 网 络 模型 能 否 较 好 地 谤 化 留 出 的 测试 数据 。 


二 N A 

5.7 利用 自动 编码 器 检测 异常 

为 了 演示 自动 编码 器 的 实际 使 用 ， 我 们 将 展示 使 用 简单 的 没有 预 训练 的 自动 编码 器 ， 来 对 
MNIST 数据 集 执行 异常 检测 。 

检测 目标 是 识别 离 群 数字 ， 即 那些 不 寻常 或 不 像 典 型 数字 的 数字 。 本 例 使 用 重建 误差 来 实 
现 这 一 目标 :常规 样本 的 重建 误差 应 该 较 低 ， 而 离 群 值 的 重建 误差 应 该 较 高 。 


这 个 例子 中 配置 模型 的 方式 与 其 他 例子 相同 ， 但 它们 的 模型 架构 不 同 。 在 自动 编码 器 的 大 
多 数 层 使 用 DenseLayer (全 连接 )， 但 是 我 们 主要 关注 那些 向 下 “过 滤 ”， 然 后 “扩展 ” 恢 
复 到 输出 层 的 层 。 


5.7.1 自动 编码 器 示例 的 Java 代 码 列表 


示例 5-5 是 执行 异常 检测 的 自动 编码 器 的 Java 代码 示例 (http:/bitly/2tQiQAP ) 。 
示例 5-5 ”用 于 查找 异常 值 的 自动 编码 器 的 Java 代码 


public class MNISTAnomalyExample { 






































public static void main(String[] args) throws Exception { 


// 设 置 网 络 。784 输入 /输出 (由 于 MNIST 图 像 是 28x28) 

//784 -> 250 -> 10 -> 250 -> 784 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(12345) 
.iterations(1) 
.weightInit(WeightInit.XAVIER) 








.Updater(Updater .ADAGRAD ) 
.activation(Activation.RELU) 


.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 


.learningRate(0.05) 

.regularization(true).1l2(0.0001) 

.list() 

.layer(0, new DenseLayer .Builder().nIn(784).nOut(250) 
.build()) 

.layer(1, new DenseLayer .Builder().nIn(250).nOut(10) 
.build()) 

.layer(2, new DenseLayer .Builder().nIn(10).nOut(250) 
.build()) 

.layer(3, new OutputLayer.BuiLder().nIn(250).n0ut(784) 
.lossFunction(LossFunctions.LossFunction.MSE) 
.build()) 

.pretrain(false).backprop(true) 

.build(); 


MultiLayerNetwork net = new MultiLayerNetwork(conf); 
net.setListeners(Collections.singletonList((IterationListener) new 
ScoreIterationListener(1))); 




















// 加 载 数据 ， 并 将 其 分 割 为 训练 集 和 测试 集 。46 69e 个 用 作 训 练 ，19 669 个 用 作 测 试 











DataSetIterator iter = new MnistDataSetIterator(100,50 000 ,faLse); 


List<INDArray> featuresTrain = new ArrayList<>(); 
List<INDArray> featuresTest = new ArrayList<>(); 
List<INDArray> labelsTest = new ArrayList<>(); 


Random r = new Random(12345); 
while(iter.hasNext()){ 
DataSet ds = iter.next(); 


SplitTestAndTrain split = ds.splitTestAndTrain(80, r); //80/20 分 割 
// 设 一 个 小 


// 批 量 =100) 
featuresTrain.add(split.getTrain().getFeatureMatrix()); 
DataSet dsTest = split.getTest(); 
featuresTest.add(dsTest.getFeatureMatrix()); 
INDArray indexes = Nd4j.argMax(dsTest.getLabels(),1); // 从 独 热 编码 表 
// 示 转换 为 索引 


LabeLsTest .add(indexes ); 
} 


// 训 练 模型 ; 
int nEpochs = 30; 
for( int epoch=0; epoch<nEpochs; epoch++ ){ 
for(INDArray data : featuresTrain){ 
net.fit(data,data); 


} 


System.out.println("Epoch ”+ epoch + 


complete"); 


} 


// 基 于 测试 数据 评估 模型 
// 分 别 对 测试 集中 每 个 数字 /样本 评分 








// 然 后 将 三 个 数据 的 集合 Triple (分 数 、 数 字 和 INDArray 数 据 ) 添加 到 列表 中 者 
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} 


// 分 数 排序 

// 这 使 我 们 可 以 得 到 每 类 最 好 的 N 个 和 最 差 的 N 个 数字 

Map<Integer ,List<Triple<Double,Integer,INDArray>>> listsByDigit = 
new HashMap<>(); 

for( int i=0; i<10; i++ ) listsByDigit.put(i,new ArrayList<Triple<Double, 
Integer ,INDArray>>()); 


int count = 0; 
for( int i=0; i<featuresTest.size(); i++ ){ 
INDArray testData = featuresTest.get(i); 
INDArray labels = labelsTest.get(i); 
int nRows = testData.rows(); 
for( int j=0; j<nRows; j++){ 
INDArray example = testData.getRow(j); 
int label = (int)labels.getDouble(j); 
double score = net.score(new DataSet(example,example)); 
listsByDigit.get(label).add(new ImmutableTriple<>(score, count++, 
example)); 


3 
// 分 别 对 于 每 种 数字 ， 根 据 分 数 对 数据 排序 


Comparator<Triple<Double, Integer, INDArray>> c 
= New Comparator<Triple<Double, Integer, INDArray>>() { 
@Override 
public int compare(Triple<Double, Integer, INDArray> o1, Triple<Double, 
Integer, INDArray> 02) { 
return Double.compare(o1.getLeft(),o02.getLeft()); 





}; 


for(List<Triple<Double, Integer, INDArray>> list : listsByDigit.values()){ 
Collections.sort(list, c); 


} 


// 为 每 种 数字 选择 5 个 最 好 的 和 5 个 最 差 的 数字 (通过 重建 误差 ) 
List<INDArray> best = new ArrayList<>(50); 
List<INDArray> worst = new ArrayList<>(50); 
for( int i=0; i<10; i++ ){ 
List<Triple<Double,Integer,INDArray>> list = listsByDigit.get(i); 
for( int j=0; j<5; j++ ){ 
best.add(list.get(j).getRight()); 
worst.add(list.get(list.size()-j-1).getRight()); 





} 


// 最 好 和 最 差 数 字 的 可 视 化 表示 

MNISTVisuyalizer bestVisualizer = new MNISTVisuyualizer(2.0,best,"Best 
(Low Rec. Error)"); 

bestVisualizer .visualize(); 


MNISTVisualizer worstVisualizer = new MNISTVisualizer(2.0,worst,"Worst 
(High Rec. Error)"); 
worstVisualizer .visualize(); 


public static class MNISTVisualizer { 
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} 


private double imageScale; 

private List<INDArray> digits; // 数 字 (以 行 向 量 的 形式 ) ， 一 个 INDArray 一 个 数字 
private String title; 

private int gridwidth; 


public MNISTVisualizer(double imageScale, List<INDArray> digits, 
String title ) { 
this(imageScale, digits, title, 5); 


} 


public MNISTVisualizer(double imageScale, List<INDArray> digits, 
String title, int gridwidth ) { 
this.imageScale = imageScale; 
this.digits = digits; 
this.title = title; 
this.gridwidth = gridwidth; 
} 


public void visualize(){ 
JFrame frame = new JFrame(); 
frame.setTitle(title); 
frame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE); 
JPanel panel = new JPanel(); 
panel.setLayout(new GridLayout(0,gridwidth)); 


List<JLabel> list = getComponents(); 

for(JLabel image : list){ 
panel.add(image); 

} 


frame.add(panel); 
frame.setVisible(true); 
frame.pack(); 

} 


private List<JLabel> getComponents(){ 
List<JLabel> images = new ArrayList<>(); 
for( INDArray arr : digits ){ 
BufferedImage bi = new BufferedImage(28,28,BufferedImage 
.TYPE_BYTE_GRAY); 
for( int i=0; i<784; i++ ){ 
bi.getRaster().setSample(i % 28, i / 28, 0, (int)(255*arr 
.getDouble(i))); 
} 
ImageIcon orig = new ImageIcon(bi ); 
Image imageScaled = orig.getImage().getScaledInstance((int) 
(imageScale*28),(int)(imageScale*28),Image.SCALE_ REPLICATE); 
ImageIcon scaled = new Imagelcon(imageScaled); 
images.add(new JLabel(scaled)); 
} 


return images; 


而 分 别 解释 代码 的 各 个 部 分 。 








5.7.2 ”设置 输入 数据 
下 面 是 使 用 自 定义 友 代 器 加 载 MNIST 数据 集 部 分 的 示例 代码 。 


// 加 载 数据 ， 并 将 其 分 割 为 训练 集 和 测试 集 。46 6966 个 用 于 训练 ，16 966 个 用 于 测试 
DataSetIterator iter = new MnistDataSetIterator(100,50 000 ,faLse); 












































List<INDArray> featuresTrain = new ArrayList<>(); 
List<INDArray> featuresTest = new ArrayList<>(); 
List<INDArray> labelsTest = new ArrayList<>(); 


Random r = new Random(12345); 
while(iter.hasNext()){ 
DataSet ds = iter.next(); 
SplitTestAndTrain split = ds.splitTestAndTrain(80, r); //89/20 分 割 
// 〈 设 一 个 小 批量 =160 ) 
featuresTrain.add(split.getTrain().getFeatureMatrix()); 
DataSet dsTest = split.getTest(); 
featuresTest.add(dsTest.getFeatureMatrix()); 
INDArray indexes = Nd4j.argMax(dsTest.getLabels(),1); // 从 独 热 编码 表示 转换 为 索引 
labelsTest.add(indexes); 





} 


与 前 面 的 示例 相 比 ， 这 个 示例 以 不 同 的 方式 处 理 训练 和 测试 数据 ， 演 示 了 如 何以 不 同 的 形 
式 使 用 DL4J 和 ND4J API。 在 while 循环 中 ， 我 们 手动 将 数据 集 分 成 测试 数据 集 和 训练 数 
据 集 。 


5.7.3 自动 编码 器 的 网 络 结构 与 训练 

如 前 所 述 ， 自 动 编码 器 网 络 架构 的 形状 通常 像 一 个 漏斗 ， 之 后 在 输出 层 再 扩展 回 完整 的 输 
入 数据 集 大 小 。 我 们 使 用 自动 编码 器 学 习 输 入 数据 最 有 效 的 形式 。 自 动 编码 器 如 其 名 所 
示 ， 它 学 着 最 好 地 代表 数据 。 设 置 自动 编码 器 的 代码 如 下 所 示 : 


// 设 置 网 络 。784 输入 /输出 (由 于 MNIST 图 像 是 28x28) 
//784 -> 250 -> 10 -> 250 -> 784 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(12345) 
.iterations(1) 
.weightInit(WeightInit.XAVIER) 
.Updater (Updater .ADAGRAD) 
.activation(Activation.RELU) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.learningRate(0.05) 
.regularization(true).12(0.0001) 
.list() 
.layer(0, new DenseLayer .Builder().nIn(784).nOut(250) 
.build()) 
.layer(1, new DenseLayer .Builder().nIn(250).nOut(10) 
.build()) 
.layer(2, new DenseLayer .Builder().nIn(10).nOut(250) 
.build()) 
.layer(3, new OutputLayer .Builder().nIn(250).n0Out(784) 
.lossFunction(LossFunctions.LossFunction.MSE) 


















































| 


























大 


156 | 第 5 章 


.build()) 
.pretrain(false).backprop(true) 
.build(); 


这 个 架构 有 四 层 ， 最 后 一 层 具有 输入 层 中 输入 数据 的 全 部 784 个 单元 。 我 们 把 这 个 网 络 中 
所 有 激活 国 数 都 设置 为 ReLU， 因 为 它 最 适合 处 理 这 个 数据 集 。 


训练 自动 编码 器 网 络 时 ， 使 用 与 本 章 其 他 DL4J 示例 一 样 的 通用 模式 ， 如 下 所 示 : 


// 训 练 模 型 ; 
int nEpochs = 30; 
for( int epoch=0; epoch<nEpochs; epoch++ ){ 
for(INDArray data : featuresTrain){ 
net.fit(data,data); 


























} 
System.out.println("Epoch " + epoch + " complete"); 


} 
我 们 循环 多 轮训 练 数据 。 这 里 使 用 API 时 的 一 个 值得 注意 的 变化 是 下 面 一 行 : 


net.fit(data,data); 








这 里 数据 也 被 用 作 网 络 的 输出 。 这 是 因为 使 用 自动 编码 器 时 ， 我 们 学 习 重 建 数 据 本 身 ， 所 
以 数据 既是 输入 又 是 输出 ， 这 使 得 调用 fit() 方法 的 方式 与 前 面 的 示例 稍 有 不 同 。 


5.7.4 评估 模型 


当 运 行 示例 代码 时 ， 它 为 学 得 最 好 的 图 像 生成 图 像 ， 然 后 为 重建 误差 最 大 的 图 像 生成 另 一 
图 像 。 图 5-2 是 为 学 得 最 好 的 手写 数字 图 像 (例如 重建 误差 最 小 的 图 像 ) 生 成 的 图 像 。 




































































图 5-2: 自动 编码 器 学 得 最 好 的 数字 








重建 误差 最 大 的 图 像 组 成 了 另 一 幅 图 像 ， 如 图 5-3 所 示 。 


























图 5-3: 难以 学 习 的 手写 数字 


从 图 中 可 以 看 出 ， 部 分 图 像 与 其 他 图 像 相 比 肯定 会 被 视 作 异常 。 我 们 并 不 总 是 知道 数据 有 
怎样 的 异常 ， 但 是 如 果 把 它 建 立 在 一 个 自动 编码 器 这 样 的 模型 上 ， 那 么 我 们 就 有 了 一 个 不 
需要 事先 了 解 异 常 的 工具 。 


5.8 使 用 变 分 自动 编码 器 重建 MNIST 数 字 

第 3 章 介绍 了 变 分 自动 编码 器 (VAE) 的 概念 ， 它 是 一 种 在 无 监督 学 习 方式 下 重建 输入 数 

据 的 方法 。 

VAE 有 很 多 用 途 ， 其 中 最 常见 的 用 途 有 : 

。 无 监督 学 习 以 及 对 特征 的 半 监 督学 习 ， 它 的 大 体 思想 是 学 习 大 量 未 标记 数据 和 少量 已 标 
记 数 据 ( 当 标 记 数 据 有 限时 ， 可 以 得 到 比 单独 使 用 标记 数据 更 好 的 结果 ) ; 

。 异常 检测 (无 监督 方式 ) ; 

。 作为 生成 模型 (例如 生成 样本 )， 它 们 可 以 生成 图 像 (如 本 例 所 示 )， 也 可 以 生成 句子 等 。 


tt he 
作为 生成 模型 的 


5.8.1 重建 MNIST 数 字 的 代码 列表 


下 一 个 例子 (示例 5-6) 是 在 MNIST 上 训练 VAE， 以 展示 VAE 的 生成 能 力 。 这 个 例子 有 
意 地 在 二 维 网 格 上 增加 了 一 个 小 的 隐藏 状态 Z (两 个 值 )， 用 于 可 视 化 。 


经 过 训练 ， 这 个 例子 绘制 了 两 幅 图 。 








































































































MNIST 数字 重建 空 


随 着 训练 的 进行 (每 


间 与 潜在 空间 。 
N 个 小 批量 )，MNIST 测试 集 的 潜在 空间 值 的 变化 。 





邮 [ 








主意 这 两 幅 图 的 顶部 都 有 一 个 清 块 。 请 动 请 块 ， 观 察 重建 空间 和 潜在 空间 如 何 随时 间 变 化 。 





示例 5-6 用 Java 语言 


中 的 VAE 对 MNIST 数字 建 模 


public class VariationalAutoEncoderExample { 
private static final Logger log = 
LoggerFactory.getLogger(VariationalAutoEncoderExample.class); 


public static void main(String[] args) throws IOException { 
int minibatchSize = 128; 
int rngSeed = 12345; 









































int nEpochs = 150; // 总 的 训练 轮 数 

// 绘 图 配置 

int plotEveryNMinibatches = 100; // 为 后 续 的 绘图 而 收集 数据 的 频 度 
double plotMin = -4; // 图 形 的 最 小 值 (x 和 y 轴 ) 

double plotMax = 4; // 图 形 的 最 大 值 (x 和 y 轴 ) 

int plotNumSteps = 16; // 在 plotMin 和 plotMax 之 间 的 重建 的 步 数 











// 用 于 训练 的 MNIST 数 据 


DataSetIterator trainIter = new MnistDataSetIterator(minibatchSize, true, 
rngSeed); 


// 神 经 网 络 配 置 

Nd4j .getRandom() .setSeed(rngSeed); 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(rngSeed) 
.iterations(1).optimizationAlgo(OptimizationAlgorithm 


.STOCHASTIC_GRADIENT_DESCENT) 


.learningRate(1e-3) 

//.updater(Updater .RMSPROP) .rmsDecay(0.95) 
.Updater(updater .ADAM) 

.weightInit(WeightInit.XAVIER) 

.regularization(true).l2(1e-5) 

.list() 

.layer(0, new VariationalAutoencoder .Builder() 


.activation(Activation.LEAKYRELU) 

.encoderLayerSizes(512, 512) //2 个 编码 层 ， 每 层 大 小 是 256 
.decoderLayerSizes(512, 512) //2 个 解码 层 ， 每 层 大 小 是 256 
.pzxActivationFunction("identity")  //p(z|ldata) 激活 函数 
.reconstructionDistribution(new BernoulliReconstructionDistribution( 


//p(datalz) 的 伯 努 利 分 布 (只 有 二 元 值 或 9 到 1 的 数据 ) 


Activation.SIGMOID.getActivationFunction())) 


.NIN(28 * 28) // 输 入 大 小 : 28x28 
.nOut(2) // 潜 在 变量 空间 的 大 小 : p(z1x)。 














// 这 里 为 了 绘图 方便 起 见 ， 将 其 设 
// 为 二 维 ， 通 常 维度 会 更 多 




















.build()) 


.pretrain(true).backprop(false).build(); 


MultiLayerNetwork net = new MultiLayerNetwork(conf); 
net.init(); 
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// 获 取 变 分 自动 编码 器 
org.deeplearning4j.nn.layers.variational.VariationalAutoencoder vae 
= (org.deeplearning4j.nn.layers.variational.VariationalAutoencoder) 
net.getLayer(0); 
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// 用 于 绘图 的 测试 数据 

DataSet testdata = new MnistDataSetIterator(10 000, false, rngSeed).next(); 
INDArray testFeatures = testdata.getFeatures(); 

INDArray testLabels = testdata.getLabels(); 

//plotMin 和 plotMax 之 间 X/Y 网 格 值 

INDArray latentSpaceGrid = getLatentSpaceGrid(plotMin, plotMax, plotNumSteps); 




















// 用 于 之 后 绘图 而 储存 数据 的 列表 
List<INDArray> latentSpaceVsEpoch = new ArrayList<>(nEpochs + 1); 
// 在 训练 开始 之 前 ， 收 集 和 记录 六 在 空间 

INDArray latentSpaceValues = vae.activate(testFeatures, false); 
latentSpaceVsEpoch.add(latentSpaceValues); 

List<INDArray> digitsGrid = new ArrayList<>(); 











// 执 行 训练 
int iterationCount = 0; 
for (int i = 0; i < nEpochs; i++) { 
log.info("Starting epoch {} of {}",(i+1),nEpochs); 
while (trainIter.hasNext()) { 
DataSet ds = trainIter.next(); 
net.fit(ds); 


// 对 于 每 N=109 个 小 批量 : 

//(a) 为 之 后 绘图 而 收集 测试 集 的 潜在 空间 

//(b) 在 网 格 的 每 一 点 收集 重建 值 

if (iterationCount++ % plotEveryNMinibatches == 0) { 
LatentSpaceVaLues = vae.activate(testFeatures, false); 
latentSpaceVsEpoch.add(latentSpaceValues); 





INDArray out = vae.generateAtMeanGivenz(latentSpaceGrid); 
digitsGrid.add(out); 


} 


trainIter.reset(); 


} 


/ /绘制 MNIST 测 试 集 - 潜在 空间 vs .迭代 器 〈 默 认 每 106 个 小 批量 ) 
PlotUtil.plotData(latentSpaceVsEpoch, testLabels, plotMin, plotMax, 
plotEveryNMinibatches); 








// 绘 制 重建 值 - 潜在 空间 vs. 网 格 
double ;imageScate = 2.0; // 增 加 /减少 此 值 以 放大 数字 
PlotUtil.MNISTLatentSpaceVisualizer v = 
new PlotUtil.MNISTLatentSpaceVisualizer(imageScale, digitsGrid, 
plotEveryNMinibatches); 
Vv.visualize(); 











// 简 单 地 为 从 x=plotMin 到 plotMax， 以 及 从 y=plotMin 到 plotMax 的 范围 
// 返 回 二 维 网 格 : (x,y) 
private static INDArray getLatentSpaceGrid(double plotMin, double plotMax, 
int plotSteps) { 
INDArray data = Nd4j.create(plotSteps * plotSteps, 2); 
INDArray linspaceRow = Nd4j.linspace(plotMin, plotMax, plotSteps); 
for (int i = 0; i < plotSteps; i++) { 
data.get(NDArrayIndex.interval(i * plotSteps, (i + 1) * plotSteps), 
NDArrayIndex.point(0)).assign(linspaceRow); 
int yStart = plotSteps - i - 1; 
data.get(NDArrayIndex.interval(yStart * plotSteps, 
(yStart + 1) * plotSteps), NDArrayIndex.point(1)).assign(linspaceRow 
.getDouble(i)); 














} 


return data; 
} 
} 


下 面 解释 生成 的 潜在 空间 网 格 和 生成 的 MNIST 图 像 。 


5.8.2 VAE 模 型 的 检验 


图 5-4 给 出 了 由 这 个 示例 代码 生成 的 图 像 。 这 些 是 在 网 络 训练 过 程 中 ， 特 定 的 迭代 对 潜在 
空间 的 重建 。 





EE 






































潜在 空间 变量 
在 统计 中 ， 潜 在 空间 变量 通过 数学 模型 推导 或 推断 。 这 与 观察 到 的 变量 
不 同 。 








不 同 的 训练 进行 轮 数 和 训练 设置 ， 可 以 生成 不 同 的 图 像 。 














~、、muumwmwummmeaeeaNeaNeaNNS 则 
~~、 人 suuuwuwmwummeeaeaeeNG 
一 ~~、Neaumumumme 和 ee 四 
~—~~NSwwWnmeme RS SS 





aqq 
qqq 
bb 
bh 
hh 
999 
9 9 
9 了 3 了 了 
i 
| 





5-4: VAE 示例 生成 的 MNIST 数 
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为 了 更 好 地 理解 这 些 图 像 如 何 生 成 ， 将 这 个 示例 与 第 3 章 介绍 的 VAE 的 网 络 架 构 联系 起 
来 。 图 5-5 展示 了 VAE 的 网 络 架 构 。 
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图 5-5; VAE 网 络 结构 


在 图 5-6 中 ，MNIST 测试 数据 的 VAE 潜在 空间 的 散 点 图 是 图 5-5 所 示 的 网 络 的 编码 器 部 分 。 
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图 5-6: VAE 潜在 空间 的 散 点 图 与 在 MNIST 测试 数据 集 上 训练 轮 数 的 关系 























162 | 第 5 章 
图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 





1. 理解 散 点 图 
图 5-6 中 的 散 点 图 是 可 变 的 潜在 空间 在 每 一 轮 的 投影 ， 将 MNIST 测试 集 数 据 (如 x) 投影 
到 值 PCzo 中 ， 其 中 PCGbo 是 具有 两 个 值 的 高 斯 分 布 ，z 是 潜在 变量 。 


可 以 把 z 看 作 压 缩 自 编码 器 中 瓶 须 的 概率 版 本 。 在 训练 过 程 中 ， 基 本 上 从 = 中 随机 抽样 以 
给 出 实际 数值 。 显 然 ， 我 们 不 能 前 向 传递 概率 分 布 ， 但 我 们 可 以 前 向 传递 从 该 概率 分 布 中 
抽取 的 数值 (例如 使 用 排序 集 上 的 蒙特 . 卡 罗 估 计 方 法 )。 


对 于 建 模 ， 首 先 假设 数据 从 p(z) 开始 生成 (例如 潜在 空间 上 的 一 些 概率 分 布 ， 并 从 中 采 
样 )， 然 后 假设 有 一 些 过 程 使 用 分 布 p(xlz) 来 生成 数据 x。 

我 们 取 p(zkx) 的 平均 值 ， 并 将 其 绘制 在 散 点 图 上 。 通 常 有 两 个 以 上 的 值 ， 但 是 我 们 只 使 用 
两 个 ， 因 为 想得到 谭 亮 的 图 片 。 

2. 理解 生成 的 图 像 

图 5-4 中 生成 的 图 像 是 图 5-6 中 网 络 的 右 侧 部 分 。 具 体 说 来 ， 生 成 一 个 16 x 16 的 网 格 ， 值 
的 范围 是 -4 到 +4， 然 后 将 这 些 值 前 向 传递 ， 就 好 像 它 们 是 p(zlx) 的 平均 值 一 样 。 

为 了 以 另 一 种 方式 理解 泻 染 ， 只 需要 设置 z 值 并 通过 解码 器 进行 前 向 传递 ， 以 得 到 PC 加 
(重建 的 MNIST 数据 ) 。 

在 这 种 情况 下 ，p(xlz) 是 伯 努 利 分 布 ， 在 0 到 1 范围 内 是 有 界 的 。 这 意味 着 可 以 只 绘制 这 
些 概率 (这 也 恰好 是 伯 努 利 分 布 的 平均 值 )， 其 中 0 到 1 被 转化 为 0 到 255 的 像素 值 。 在 
这 种 情况 下 ,x 和 p(xlz) 的 大 小 相同 : 输入 /输出 均 为 784 (来 自 MNIST 的 28x28 大 小 的 
图 像 )。 





















































散 点 图 与 生成 图 像 的 关系 
从 某 种 意义 上 说 ， 散 点 图 和 生成 的 图 像 是 从 不 同 角度 展开 的 同一 事物 。 









































5.9 深度 学 习 在 自然 语言 处 理 中 的 应 用 


在 自然 语言 处 理 (NLP) 领域 ,深度 学 习 已 被 证 明 是 高 效 的 。 这 一 领域 的 深度 学 习 的 常见 
应 用 包括 词性 标注 、 字 符 生 成 和 学 习 词 艇 入 等 技术 。 以 下 是 本 章 将 重点 介绍 的 一 些 NLP 应 
用 程序 。 


。 使 用 Word2Vec 进行 学 习 词 艇 入 。 
。 有 具有 段落 向 量 的 句子 的 分 布 式 表示 。 
。 基于 段落 向 量 的 文档 分 类 。 


下 面 依次 展示 这 些 应 用 。 


5.9.1 使 用 Word2Vec 的 学 习 词 人 散 入 
Word2Vec 通过 学 习 周 围 单词 的 上 下 文 来 检测 单词 之 间 在 数学 上 的 相似 性 。Word2Vec 创建 
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向 量 ， 这 些 向 量 是 单词 特征 的 分 布 式 数字 表示 ， 例 如 单个 词 的 上 下 文 。Word2Vec 以 文本 
语料库 为 输入 数据 来 训练 ， 并 产生 单词 向 量 / 词 租 入 的 列表 作为 输出 模型 。 生 成 的 词 和 入 
中 单词 含义 和 关系 是 空间 编码 的 ， 并 且 具 有 向 量 计算 等 有 用 特性 ， 稍 后 将 介绍 。 

1. Word2Vec 模 型 及 算法 

该 算法 首先 从 输入 训练 数据 构建 词汇 表 ， 然 后 构建 单词 的 表示 。 我 们 不 会 像 使 用 其 他 向 量 
化 技术 那样 一 开始 为 每 个 文档 构建 向 量 。 然 而 对 于 Word2Vec 来 说 ， 基 于 输入 语料库 训练 
的 输出 数据 集 是 语料库 中 唯一 的 单词 集合 ， 每 个 单词 都 带 有 一 个 向 量 。 这 个 输出 中 的 每 个 
向 量 包 含 单词 的 上 下 文 (或 用 法 )。Word2Vec 使 用 前 馈 神经 网 络 语言 模型 (NNLM) 以 无 
监督 的 学 习 方 式 构建 这 些 上 下 文 单词 向 量 。 在 实践 中 ， 这 是 一 个 用 SGD 进行 训练 的 两 层 
神经 网 络 。 

单词 向 量 代表 一 系列 单词 ， 人 允许 对 其 上 下 文 建 模 。 它 们 代表 一 个 单词 相对 于 其 周围 单词 的 
用 法 。 当 在 命名 实体 识别 (NER)、 词 性 标注 和 语义 角色 标注 (SRL) 等 场景 中 要 对 围绕 单 
词 的 大 量 上 下 文 信息 进行 分 类 上 时， 这 确实 很 方便 。 


生成 的 Word2Vec 向 量 的 特征 数量 


基于 神经 网 络 学 到 的 单词 的 分 布 式 表示 结果 ， 每 个 单词 向 量具 有 大 约 50 到 
300 个 特征 。 

































































该 领域 的 另 一 种 技术 是 潜在 语义 索引 (LSI) ， 它 检测 那些 看 起 来 可 以 结合 在 一 起 的 维 
度 ， 并 将 其 合并 为 单个 的 维度 ， 这 有 助 于 加 速 聚 类 等 计算 。Word2Vec 的 设计 者 考虑 了 许 
多 估计 单词 连续 表示 的 方法 ， 包 括 潜 在 语义 分 析 (LSA) 和 潜在 狄 利克 雷 分 配 (LDA)。 
Word2Vec 在 保持 单词 之 间 的 线性 规则 性 方面 明显 优 于 LSA， 并 且 比 LDA 计算 成 本 低 。 


2. 上 下 文 建 模 

单词 向 量 以 多 单词 窗口 的 形式 保留 源 文本 中 单词 周围 的 上 下 文 。 基 于 机 器 学 习 的 目的 ， 将 
单词 的 含义 定义 为 最 接近 它 的 单词 。 有 了 足够 的 数据 ， 我 们 可 以 使 用 这 些 语义 ， 并 在 语 料 
库 中 构建 词语 的 表示 ， 从 而 相当 准确 地 对 一 个 单词 建 模 。Word2Vec 从 单词 窗口 创建 特征 ， 
其 中 包括 单个 词 的 上 下 文 。 

当 构 建 一 个 Word2Vec 模型 时 ， 我 们 使 用 一 个 移动 窗口 一 次 跨越 (通常 ) 五 个 单词 。 通 
过 移动 窗口 训练 Word2Vec 的 概念 在 许多 类 似 的 技术 中 也 有 ， 如 语义 标注 、SRL 和 NER。 
Word2Vec 使 用 维特 比 算法 构建 模型 ， 根 据 给 定 的 从 一 个 状态 迁移 到 另 一 个 状态 的 概率 或 
“迁移 矩阵 ”计算 最 可 能 的 事件 序列 (标签 )。 

3. 学 习 相 似 含义 和 语义 关系 

可 以 使 用 向 量 距 离 度量 的 方法 找到 相似 的 单词 ， 比 如 欧 几 里 得 距离 (第 1 章 介绍 过 ) 或 余 
弦 距离 。 这 使 得 我 们 可 以 得 到 余弦 相似 距离 短 的 词 ， 或 者 说 ,“ 相 近 的 表示 ”。 表 5-3 列 出 
了 一 些 基于 Word2Vec 模型 训练 的 最 接近 “France” 的 单词 的 例子 。 






































表 5-3: Word2Vec 余 弦 相 似 性 





单词 余弦 距离 
Spain 0.678515 
Belgium 0.665923 
Netherlands 0.652428 
Italy 0.633130 
Switzerland 0.622323 
Luxembourg 0.610033 
Portugal 0.577154 
Russia 0.571507 
Germany 0.563291 
Catalonia 0.534176 


理解 余弦 距离 
余弦 距离 1.0 表示 两 个 相同 的 词 之 间 完 美 匹 配 (同一 性 ， 如 “阿姆斯特丹 ” 
等 于 “阿姆斯特丹 ”)。 余 弦 距离 越 接 近 值 1.0， 两 个 词 向 量 的 意义 越 相似 。 











我 们 需要 在 向 量 维度 足够 大 的 大 数据 集 上 训练 Word2Vec 模型 ， 以 查看 词 向 量 空间 中 的 强 
正则 性 。 
4. 向 量 计算 与 词 嵌 入 
还 可 以 用 Word2Vec 向 量 进行 一 些 基本 运算 ， 示 例如 下 : 

vector('Rome') = vector('Paris') - vector('France') + vector('Italy') 
这 个 运算 的 结果 是 一 个 非常 接近 vector('Rome') 的 向 量 。 其 他 有 趣 的 相似 性 语义 的 例子 
有 :“big” 这 个 词 与 “bigger” 相 似 ,“small” 与 “smaller” 也 相似 。 一 个 有 趣 的 练习 是 计 
算 与 small 相似 的 词 ， 就 像 “biggest” 与 “big” 相 似 一 样 。 我 们 通过 词 向 量 表示 的 简单 代 
数 运算 计算 。 


vector('smallest') = vector("biggest") - vector("big") + vector("small") 








接 下 来 用 1NN 搜索 (https://en.wikipedia.org/wiki/K-nearest_neighbors algorithm) 的 方式 搜 
索 向 量 空间 ， 计 算 词 之 间 的 距离 〈 这 里 是 余弦 距离 )， 寻 找 最 接近 搜索 项 的 单词 ， 得 到 词 
向 量 。 如 果 词 向 量 经 过 很 好 的 训练 ， 应 该 能 通过 这 种 技术 找到 正确 的 单词 (smallest) 。 也 
可 以 发 行 一 些 细微 的 关系 ， 比 如 国家 的 首都 城市 〈 例 如 法 国 的 巴黎 、 德 国 的 柏林 ) 。 

这 些 语义 关系 可 以 高 效 地 改进 现 有 的 NLP 技术 ， 如 机 器 翻译 、 信 息 检 索 和 问答 系统 。 下 下 
来 看 一 个 使 用 Word2Vec 的 简单 例子 。 

5. Word2Vec 例 子 的 Java 代 码 


示例 5-7 中 的 代码 (http://bit.ly/2txt1HL) 从 原始 文本 句子 学 习 向 量 表示 。 这 是 展示 学 习 语 
料 库 中 词义 的 较 大 潜力 的 一 个 例子 。 



































示例 5-7 ”Word2Vec 的 代码 示例 
public class Word2VecRawTextExample { 


private static Logger log = 


LoggerFactory.getLogger (Word2VecRawTextExample.class); 


public static void main(String[] args) throws Exception { 


// 获 取 文 本 文件 的 路 径 

String filepath = new CLassPathResource("raw_sentences .txt" ) .getFiLLe() 
.getAbsoLutePath() ; 

Log.info("Load & Vectorize Sentences...."); 


// 去 除 每 行 前 后 的 空白 
SentenceIterator iter = new BasicLineIterator(fLLePath); 
// 基 于 空格 将 行 分 割 为 单词 


TokenizerFactory t = new DefaultTokenizerFactory(); 








/* 
CommonPreprocessor 对 每 个 单词 应 用 以 下 正则 表达 式 : 
[\d\.:,""\CON\LNI/?!;]+ 
这 样 就 能 高 效 删除 所 有 数字 、 标 点 符号 和 一 些 特 殊 符 号 
另外 ， 它 还 将 所 有 单词 一 律 变 为 小 写 。 

2x/ 


t.setTokenPreProcessor(new CommonPreprocessor()); 











log.info("Building model...."); 
Word2Vec vec = new Word2Vec.Builder() 
.minWordFrequency(5) 
.iterations(1) 
.layerSize(100) 
.Seed(42) 
.windowSize(5) 
.iterate(iter) 
.tokenizerFactory(t) 
.build(); 


log.info("Fitting Word2Vec model...."); 
vec.fit(); 


log.info("Writing word vectors to text file...."); 


// 将 词 向 量 写 入 文件 


WordVectorSerializer .writeWordVectors(vec, "pathToWriteto.txt"); 





// 打 印 出 最 接近 单词 "day" 的 16 个 单词 。 这 是 一 个 演示 如 何 处 理 这 些 词 向 量 的 例子 。 
Log.info("CLosest Words:"); 

Collection<String> lst = vec.wordsNearest("day", 10); 
System.out.println("10 Words closest to 'day': " + lst); 
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6. 理解 Word2Vec 例 子 





包含 的 原始 句子 文件 。 
// 获 取 文 本 文件 的 路 径 


下 面 讨 论 这 段 代 码 中 特定 的 部 分 ， 以 便 你 更 好 地 理解 示例 中 发 生 的 事 | 








[和 老 
上 月。 


在 下 面 的 代码 片段 中 ， 可 以 看 到 如 何 使 用 SentenceIterator 对 象 引 用 和 加 载 代码 示例 库 中 


String filepath = new CLassPathResource("raw_sentences .txt" ) .getFiLLe() 


.getAbsoLutepPath() ; 


log.info("Load & Vectorize Sentences...." 


// 去 除 每 行 前 后 的 空白 





SentenceIterator iter = new BasicLineIterator(filepath); 





// 基 于 空格 将 行 分 割 为 单 局 





TokenizerFactory t = new DefaultTokenizerFactory(); 


/* 


CommonPreprocessor 对 每 个 单词 应 用 以 下 正则 对 


[\d\.:， AGAIN]1/3 + 
这 样 就 能 高 效 地 删除 所 有 数字 








另外 ， 它 还 将 所 有 单词 一 得 蛙 变 为 小 写 。 





*/ 





长 达 式 


些 特 殊 符号 


t.setTokenPreProcessor(new CommonPreprocessor()); 


这 里 ， 预 处 理 使 用 CommonPreprocessor 对 象 来 执行 。 这 个 例子 中 大 多 数 文本 操作 都 用 这 些 


类 在 底层 执行 ， 使 这 个 例子 更 简单 。 





Word2Vec 的 架构 与 本 章 前 面 介 绍 的 网 络 架构 看 起 来 不 同 ， 这 是 因为 Nord2Vec 类 在 DL4J 











中 基本 上 是 独立 的 。 


log.info("Building model...."); 


Word2Vec vec = new Word2Vec.Builder() 


.minWordFrequency(5) 
.iterations(1) 
.LayerSize(100) 
.Seed(42) 
.windowSize(5) 
.iterate(iter) 
.tokenizerFactory(t) 
.build(); 


0 Re 构 中 直接 设置 了 句子 迭代 器 ， 这 不 是 功能 上 的 主要 区 别 ， 而 更 多 


留 在 这 
鉴于 为 这 个 网 





参数 来 训练 网 





个 特定 网 络 上 过 去 的 API 设计 导致 的 。 


刚 络 架构 设置 了 句子 迭代 器 ， 那 么 只 需 简 
风 络 ， 如 下 面 的 代码 片段 所 示 : 


log.info("Fitting Word2Vec model...."); 
vec.fit(); 





在 .fit() 方法 完成 后 ， 


单 地 调用 .fit() 方法 ， 而 不 需要 其 他 





这 个 例子 保存 网 络 并 打印 出 10 个 最 接近 单词 “day” 的 单词 。 








7. Word2Vec 的 其 他 实际 应 用 

Word2Vec 神经 网 络 的 输出 是 一 个 词汇 表 ， 甚 中 每 项 都 有 一 个 附属 向 量 ， 它 可 以 被 输入 到 
深度 学 习 网 络 ， 或 者 简单 地 用 于 查询 以 检测 词 之 间 的 关系 。 也 可 以 使 用 Word2Vec 向 量 来 
对 文档 进行 分 类 ， 本 章 稍 后 将 介绍 它 (使 用 段落 向 量 )。 

为 了 进行 规范 文档 分 类 ， 从 语料库 中 生成 单词 向 量 之 后 ， 将 要 分 类 的 文档 中 出 现 的 每 个 单 
词 的 向 量 加 到 一 起 。 这 样 就 得 到 了 一 个 表示 文档 的 向 量 ， 和 包含 在 每 个 单词 向 量 中 的 上 下 
文 信息 。 之 后 我 们 以 和 基于 文档 生成 TF-IDF 向 量 同样 的 方式 ， 使 用 这 个 文档 向 量 。 
























































使 用 GloVe 学 习 表示 单词 的 全 局 向 量 
Word2Vec 的 一 种 替代 方法 是 GloVe。 
GloVe 是 一 种 构建 词 诬 入 的 无 监督 学 习 算法 。 它 基于 从 输入 数据 (例如 文本 文档 组 ) 
聚合 得 到 的 全 局 中 单词 与 单词 共同 出 现 的 统计 数据 来 构建 模型 。 二 者 的 主要 区 别 是 : 
Word2Vec 是 一 个 “预测 ”模型 ， 而 GloVe 是 一 个 “基于 计数 ”的 模型 。 值 得 注意 的 
是 ，GloVe 被 认为 比 Word2Vec 更 难 训练 和 调 优 。 
DL4J 有 一 个 与 前 面 Word2Vec 练习 类 似 的 GloVe 示例 (http:WbitIy/2SNV7S9， 你 可 以 
在 示例 存 存 库 https://github.com/deeplearning4j/oreilly-book-dl4j-examples/) 中 找到 它 。 











5.9.2 ”具有 段落 向 量 的 句子 的 分 布 式 表示 


如 果 继 续 基 于 Word2Vec 中 确立 的 思想 ， 我 们 可 以 扩展 这 种 技术 ， 以 相似 的 方式 对 任意 更 大 
的 序列 (例如 句子 或 文档 ) 建 模 。 在 这 个 例子 中 ， 我 们 将 创建 段落 向 量 〈 例 如 Doc2Vec ) 。 
历史 上 ， 机 器 学 习 算 法 要 求 建 模 所 用 文档 的 表示 长 度 是 固定 的 ， 一 个 最 常用 的 实现 了 这 一 
目标 的 方法 是 词 袋 向 量化 方法 。 词 袋 法 在 向 量 中 为 文档 中 每 个 不 同 的 词 创建 计数 。 不 过 这 
个 方法 有 两 个 主要 问题 。 


。 单词 的 顺序 信息 丢失 。 

没有 对 单词 的 语义 建 模 。 
使 用 段落 向 量 ， 我 们 得 到 了 表示 可 变 长 度 文本 序列 〈 例 如 句子 、 段 落 或 文档 ) 的 固定 长 度 
向 量 。 每 条 逻辑 记录 由 密集 向 量 表 示 。 研 究 表 明 段 落 向 量 法 优 于 词 袋 法 和 其 他 文本 表示 
法 ， 也 提高 了 对 多 种 文本 分 类 和 情感 分 析 问 题 的 准确 性 。 
这 个 例子 使 用 DL4J 中 Doc2Vec 实现 的 段落 向 量 。Doc2Vec 是 Word2Vec 的 扩展 ， 它 学 着 
将 标签 和 单词 关联 ， 而 不 是 将 单词 与 其 他 单词 关联 。Doc2Vec 以 无 监督 的 训练 方法 学 习 输 
入 语料库 ， 因 为 不 需要 明确 地 给 它 标签 。 接 下 来 是 一 个 使 用 DL4J 对 段落 向 量 建 模 的 代码 
示例 。 
1. 建立 段落 向 量 
示例 5-8 的 代码 (http://bit.ly/2tPQeHM) 构建 了 在 训练 语料库 中 存在 的 所 有 句子 的 分 布 式 
表示 (段落 向 量 )。 示 例 的 训练 数据 包含 在 示例 代码 库 中 ， 你 只 需要 克隆 代码 库 ， 在 本 地 


运行 这 个 类 即 可 。 
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示例 5-8 在 Java 中 使 用 DL4J 构建 段落 向 量 


public class ParagraphVectorsTextExample { 


private static final Logger log = 
LoggerFactory.getLogger(ParagraphVectorsTextExample.class); 


public static void main(String[] args) throws Exception { 
ClassPathResource resource = new ClassPathResource("/raw_sentences.txt"); 
File file = resource.getrile(); 
SentenceIterator iter = new BasiclineIterator(file); 


AbstractCache<VocabWord> cache = new AbstractCache<>(); 


TokenizerFactory t = new DefaultTokenizerFactory(); 
t.setTokenPreProcessor(new CommonPreprocessor() ); 


/* 
如 果 没 有 LabeLAwareIterator， 可 以 使 用 同步 标签 生成 器 ， 它 会 用 它 自己 的 
标签 来 标记 每 个 文档 /序列 / 行 。 但 是 如 果 已 经 准备 好 了 LabeLAwareIterator， 
可 以 把 它 提 供给 内 部 标签 。 

*/ 


LabeLsSource source = new LabelsSource("DOC_"); 




















ParagraphVectors vec = new ParagraphVectors.Builder() 
.minWordFrequency(1) 
.iterations(5) 
.epochs(1) 
.layerSize(100) 
.learningRate(0.025) 
.labelsSource(source) 
.windowSize(5) 
.iterate(iter) 
.trainWordVectors(false) 
.vocabCache(cache) 
.tokenizerFactory(t) 
.sampling(0) 

.build(); 


vec.fit(); 


/* 

训练 语料库 中 ， 很 少 有 包含 非常 接近 的 单词 的 行 。 下 面 这 些 句子 在 向 量 空间 中 应 
该 非常 接近 
3721 行 : This is my way . 

6348 行 : This is my case . 

9836 行 : This is my house . 

12493 行 : This is my world. 

16393 行 : This is my work . 

这 是 一 个 特殊 的 句子 ， 与 前 面 的 句子 没有 共同 之 处 。 
9853 行 : We now have one . 


注意 文档 从 9 开始 索引 









































*/ 
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正如 在 结果 中 所 看 到 的 ， 前 三 个 相似 性 查询 比 最 后 一 个 的 得 分 更 


double similarity1 = vec.similarity("DOC 9835", "DOC_ 12492"); 
log.info("9836/12493 ('This is my house .'/'This is my world .') similarity: 
"+ similarity1); 


double similarity2 = vec.similarity("DOC_ 3720", "DOC_16392"); 
log.info("3721/16393 ('This is my way .'/'This is my work .') similarity: 
" + similarity2); 


double similarity3 = vec.similarity("DOC_ 6347", "DOC_3720"); 
log.info("6348/3721 ('This is my case .'/'This is my way .') similarity: 
" + similarity3); 





// 这 种 情况 下 可 能 性 应 该 显著 降低 。 

double similarityX = vec.similarity("DOC_ 3720", "DOC_9852"); 

log.info("3721/9853 ('This is my way .'/'We now have one .') similarity: 
+ SimilarityX +"(should be significantly lower)"); 





} 








下 
~ nl 
之 
等 
em 
3 
启 
训 








降低 。 


2. 理解 段落 向 量 的 示例 
段落 向 量 的 示例 在 结构 上 与 前 面 的 Word2Vec 示例 相似 ， 它 们 加 载 输入 训练 数据 、 建 立 网 


络 ， 











然后 训练 数据 的 方式 相同 。 同 样 ， 文 件 和 目录 处 理由 引入 的 帮助 类 自动 完成 。 


CLassPathResource resource = new ClassPathResource("/raw_sentences.txt"); 
File file = resource.getrile(); 
SentenceIterator iter = new BasiclLineIterator(file); 





AbstractCache<VocabWord> cache = new AbstractCache<>(); 


TokenizerFactory t = new DefaultTokenizerFactory(); 
t.setTokenPreProcessor(new CommonPreprocessor()); 


/* 
如 果 没 有 LabelAwareIterator ， 可 以 使 用 同步 标签 生成 器 ， 它 会 使 用 它 自己 的 标签 来 
标记 每 个 文档 /序列 / 行 。 但 是 如 果 已 经 准备 好 了 LabelAwareIterator， 可 以 把 它 提 供 
给 内 部 标签 。 





















































*/ 


LabeLsSource Source = new LabelsSource("DOC_"); 





DL4J 中 的 段落 向 量 实现 使 用 了 一 个 被 称 为 ParagraphVectors 的 帮助 类 ， 如 下 所 示 : 





ParagraphVectors vec = new ParagraphVectors.Builder() 

.minWordFrequency(1) 

.iterations(5) 

.epochs(1) 

.layerSize(100) 

.LearningRate(0.025) 

.labelsSource(source) 

.windowSize(5) 
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.iterate(iter) 
.trainWordVectors(false) 
.vocabCache(cache) 
.tokenizerFactory(t) 
.Sampling(0) 

.build(); 


vec.fit(); 
关键 的 超 参 数 直 接 使 用 此 类 中 的 方法 设置 ， 因 为 与 其 他 使 用 MultiLayerConfiguration 类 
的 网 络 更 广泛 的 方法 相 比 ，ParagraphVectors 具有 更 专用 的 API ( 像 Word2Vec)。 
同样 ， 我 们 调用 .fit() 方法 。 在 示例 的 最 后 ， 一 些 文档 通过 余弦 相似 性 度量 方法 (如 在 
Word2Vec 示例 中 看 到 的 ) 相互 比较 。 这 个 例子 有 助 于 你 更 好 地 理解 如 何 使 用 DL4J 构建 段 
落 向 量 。 下 一 个 例子 将 展示 如 何 将 段落 向 量 应 用 到 更 广泛 的 程序 中 ， 使 用 它 来 进行 分 类 。 
生成 序列 向 量 
段落 向 量 是 序列 向 量 的 一 种 实现 。DL4J 项 目 中 有 Skip-Gram 模型 的 通用 实 
现 ， 它 是 Word2Vec、 段 落 向 量 和 DeepWalk 等 模型 的 基础 。 















































Hinton 关于 段落 向 量 潜在 意义 的 演讲 

2015 年 ， 在 伦敦 皇家 学 会 的 一 次 演讲 中 ，Geoffrey Hinton 讲 到 : 
这 对 于 文档 处 理 意 义 重大 。 如 果 我 们 将 一 个 句子 转换 为 一 个 能 捕获 身子 含义 
的 向 量 ， 那 么 谷歌 搜索 可 以 做 得 更 好 ， 可 以 基于 文档 的 含义 进行 搜索 。 
此 外 ， 如 果 能 够 把 一 个 文档 中 的 每 个 向 子 转换 成 向 量 ， 那 么 你 就 可 以 使 用 那 
个 向 量 序 列 ， 尝 试 对 自然 推理 建 模 。 这 是 老式 人 工 智 能 永远 无 法 做 到 的 。 
如 果 能 够 阅读 网 络 上 的 每 个 英文 文档 ， 并 将 每 个 句子 转换 成 思维 向 量 ， 那 么 
你 就 拥有 大 量 的 数据 ， 可 以 像 人 一 样 训练 推理 系统 。 
现在 你 可 能 不 希望 它 像 人 一 样 推理 ， 但 至 少 我 们 可 以 知道 它们 会 想 什么 。 
我 认为 在 未 来 几 年 ， 这 种 把 句子 转化 为 思维 向 量 的 能 力 将 迅速 改变 我 们 对 文 
档 理 解 的 程度 。 
要 想 达 到 像 人 一 样 理解 文档 的 程度 ， 我 们 可 能 需要 有 与 人 同样 级 别 的 资源 。 我 
们 的 大 脑 里 有 数 万 亿 个 连接 ， 但 迄今 为 止 我 们 建立 的 最 大 网 络 只 有 数 十 亿 个 连 
接 。 因 此 我 们 有 几 个 数量 级 的 差距 ， 但 我 相信 搞 硬 件 的 人 会 解决 这 个 问题 。 











5.9.3 ”使 用 段落 向 量 进行 文档 分 类 

正如 本 章 前 面 提 到 的 ， 我 们 可 以 在 NLP 和 文档 分 类 的 上 下 文中 使 用 段落 向 量 。 这 个 示例 将 
在 应 用 程序 中 使 用 与 上 一 个 示例 中 相似 的 段落 向 量 模型 来 构建 文档 分 类 器 ， 这 个 分 类 器 会 
给 出 类 似 于 下 面 这 样 合 有 三 个 标签 的 输出 。 























Document 'health' falls into the following categories: 
health: 0.29721372296220205 
science: 0.011684473733853906 
finance: -0.14755302887323793 


从 上 面 的 片断 可 以 看 出 ， 得 分 最 高 的 标签 就 是 分 类 。 下 面 是 示例 5-9 的 段落 向 量 分 类 应 用 
程序 (http://bit.ly/2sOpJ5Q)。 


示例 5-9 在 Java 中 使 用 段落 向 量 对 文档 进行 分 类 


public class ParagraphVectorsClassifierExample { 


ParagraphVectors paragraphVectors; 
LabeLAwareIterator iterator; 
TokenizerFactory tokenizerFactory; 


private static final Logger log = 
LoggerFactory.getLogger(ParagraphVectorsClassifierExample.class); 


public static void main(String[] args) throws Exception { 


ParagraphVectorsClassifierExample app = 
new ParagraphVectorsClassifierExample(); 
app.makeParagraphVectors(); 
app.checkUnLabeLedData() ; 
/* 
你 的 输出 应 该 是 这 样 的 : 
Document 'health' falls into the following categories: 
health: 0.29721372296220205 
science: 0.011684473733853906 
finance: -0.14755302887323793 
Document 'finance' falls into the following categories: 
health: -0.17290237675941766 
science: -0.09579267574606627 
finance: 0.4460859189453788 
所 以 ， 现 在 我 们 知道 了 还 没有 读 过 的 文档 的 类 别 。 
*/ 
} 


void makeParagraphVectors() throws Exception { 
ClassPathResource resource = new ClassPathResource("paravec/labeled"); 


// 为 数据 集 构建 迭代 器 

iterator = new FileLabelAwareIterator .Builder() 
.addSourceFolder(resource.getrFile()) 
.build(); 


tokenizerFactory = new DefaultTokenizerFactory(); 
tokenizerFactory.setTokenPreProcessor(new CommonPreprocessor()); 


//ParagraphVectors 训 练 配置 

paragraphVectors = new ParagraphVectors.Builder() 
.learningRate(0.025) 
.minLearningRate(0.001) 
.batchSize(1000) 





.epochs(20) 
.iterate(iterator) 
.trainWordVectors(true) 


.tokenizerFactory(tokenizerFactory) 
.build(); 





// 开 始 训练 模型 
paragraphVectors.fit(); 


} 


void checkUnlabeledData() throws FileNotFoundException { 
/* 

在 这 个 点 上 ， 假 设 模型 已 经 建立 

因此 开始 加 载 未 标记 的 文档 并 











了 ， 并 且 可 以 检查 未 标记 文档 属于 哪些 类 别 。 
检查 它们 。 




















* 

/ 

ClassPathResource unClassifiedResource = 
new ClassPathResource("paravec/unlabeled"); 

FileLabelAwareIterator unClassifiedIterator = new FileLabelAwareIterator 
.Builder() 


.addSourceFolder(unClassifiedResource.getrile()) 
.build(); 


/* 

现在 将 对 未 标记 的 数据 进行 迭代 ， 并 检查 它 可 以 被 分 配 哪 个 标签 。 

请 注意 : 对 于 许多 领域 来 说 ， 一 个 文档 同时 落 入 几 个 标签 是 正常 的 ， 

并 且 文 档 在 每 个 标签 中 都 有 不 同 的 “权重 ”。 

* 

/ 

MeansBuilder meansBuilder = new MeansBuilder( 
(InMemoryLookupTable<VocabWord>)paragraphVectors.getLookupTable(), 

tokenizerFactory); 

LabelSeeker seeker = new LabelSeeker(iterator.getLabelsSource().getLabels(), 

(InMemoryLookupTable<VocabWord>) paragraphVectors.getLookupTable()); 


























while (unCLassifiedIterator .hasNextDocument()) { 
LabelledDocument document = unClassifiedIterator.nextDocument(); 
INDArray documentAsCentroid = meansBuilder.documentAsVector(document); 
List<Pair<String, Double>> scores = seeker.getScores(documentAsCentroid); 


/* 
请 注意 ，document.getLabel() 仅 表示 现在 正在 查看 的 文档 ， 这 里 不 打印 整个 文档 名 称 。 
所 以 ， 这 两 个 文档 的 标签 就 像 标题 一 样 ， 只 是 为 了 适当 地 可 视 化 分 类 。 
*/ 
log.info("Document '" + document.getLabel() 
+ "' falls into the following categories: "); 
for (Pair<String, Double> score: scores) { 


log.info(" " + score.getFirst() + ": " + score.getSecond()); 
} 























} 





示例 5-9 的 整体 思路 与 我 们 在 LDA (例如 “主题 空间 建 模 ”) 中 对 ParagraphVectors 类 的 使 
用 方式 相同 。 











这 个 例子 假设 训练 所 用 的 数据 中 有 一 些 已 标记 类 别 的 ， 还 有 一 些 未 标记 的 文档 。 应 用 程序 
的 目标 是 通过 利用 段落 向 量 中 所 包含 的 信息 来 确定 这 些 未 标记 的 文档 属于 哪个 类 别 。 

1. 理解 段落 向 量 分 类 的 示例 

这 个 例子 和 前 面 的 例子 的 一 些 做 法 类 似 ， 但 它 扩 展 到 了 对 未 标记 的 文档 进行 分 类 。 主 要 的 
程序 代码 如 下 所 示 : 


public static void main(String[] args) throws Exception { 

















ParagraphVectorsClassifierExample app = 
new ParagraphVectorsClassifierExample(); 

app.makeParagraphVectors(); 

app.checkUnlabeledData(); 


可 以 看 到 如 何 用 .makeParagraphVectors() 方法 封装 前 面 的 例子 的 。 下 面 继 续 使 用 这 个 段落 
向 量 模型 对 新 的 未 标记 文档 进行 分 类 。 在 .checkUunlabledData() 方法 中 ， 代 码 循 环 对 文档 
列表 进行 分 类 : 

LabelledDocument document = unClassifiedIterator.nextDocument(); 


INDArray documentAsCentroid = meansBuilder .documentAsVector(document); 
List<Pair<String, Double>> scores = seeker .getScores(documentAsCentroid); 















































下 面 的 代码 将 生成 的 分 数 打 印 到 屏幕 上 : 
Log.info("Document '" + document.getLabel() + ""' 
falls into the following categories: "); 
for (Pair<String, Double> score: scores) { 
log.info(" " + score.getFirst() + ": " + score.getSecond()); 
} 
它 将 产生 以 下 输出 : 


Document 'health' falls into the following categories: 
health: 0.29721372296220205 
science: 0.011684473733853906 
finance: -0.14755302887323793 


最 高 分 就 被 视 作 分 类 。 
health: 0.29721372296220205 
在 前 面 的 输出 中 可 以 清楚 地 看 到 文档 被 分 类 为 “health”， 这 是 正确 的 ， 因 为 它 与 数据 中 的 
相关 标签 匹配 。 
2. Word2Vec 方 法 的 进一步 探索 
正如 之 前 关于 CNN 的 章节 提 到 的 ， 这 里 介绍 的 针对 不 同 架 构 的 许多 应 用 程序 仅仅 是 很 好 
的 起 点 。 通 常 而 言 ， 租 入 指 由 神经 网 络 学 到 的 数据 关系 的 映射 。Word2Vec 方法 的 其 他 有 
趣 变 体 包 括 以 下 领域 的 应 用 : 
。 扩展 到 特定 领域 
。 图 分 析 
。 推荐 
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像 识 别 
扩展 到 特定 领域 一 一 Gov2Vec。Word2Vec 的 一 个 有 趣 的 应 用 是 扩展 到 政府 法 律 文本 分 析 
领域 的 、 被 称 为 “Gov2Vec” 的 应 用 。 下 面 是 作者 论文 中 的 描述 。 
我 们 将 每 个 机 构 的 整个 法 律 语料库 的 表示 和 所 有 语料库 共享 的 词汇 误 入 连续 的 向 
量 空间 ， 来 比较 不 同 机 构 间 的 政策 差异 。 我 们 将 Gov2Vec 方法 应 用 于 最 高 法 院 的 
这 种 神经 单词 从 入 的 变 体能 够 理解 国会 和 总 统 可 能 批准 / 否决 法 案 之 间 的 关系 ， 以 及 随 着 
时 间 的 推移 ， 这 种 关系 会 如 何 演变 。 它 们 能 够 回答 以 下 问题。 
奥巴马 和 第 113 届 众 议院 在 应 对 气候 变化 方面 有 何不 同 ? 从 环境 或 经 济 角度 看 有 何 
区 别 ? 
随 着 深度 学 习 的 演化 ， 向 量 计算 方法 最 有 可 能 更 频繁 出 现 。 
图 和 Node2Vec。 在 图 分 析 领 域 ，Node2Vec 是 一 个 学 习 网 络 中 节点 的 连续 特征 表示 的 算法 
框架 。Node2Vec 的 一 个 有 趣 的 特性 是 它 可 以 扩展 到 非常 大 的 图 ( 数 百 万 个 节点 / 边 或 更 多 )。 
推荐 引 警 和 ltem2Vec。 这 个 概念 的 另 一 个 有 趣 的 应 用 是 Item2Vec， 该 方法 用 于 推荐 系统 。 
在 论文 中 ， 作 者 展示 了 神经 网 络 词 骨 入 方法 作为 基于 项 目的 协同 过 滤 技 术 用 于 推荐 。 
计算 机 视觉 和 FaceNet。 在 图 像 识 别 领域 ， 有 一 个 叫 作 FaceNet 的 应 用 ， 它 用 于 生成 面部 
特征 (图像) 表示 的 神经 网 络 戏 入 。 
总 的 说 来 ，Word2Vec 方法 是 一 种 使 用 能 入 来 映射 输入 数据 之 间 关 系 的 有 趣 方法 ， 它 使 我 
们 能 够 进一步 地 对 数据 进行 聚 类 、 分 类 和 比较 。 

































































第 6 章 


深度 网 络 调 优 





任何 物质 都 是 毒药 ， 没 有 什么 东西 是 无 毒 的 ， 剂 量 决定 一 切 。 
一 一 帕 拉 蜜 尔 苏 斯 ，15 世纪 文艺 复兴 时 期 的 医生 、 
植物 学 家 、 炼 金 术士 、 占 星 家 和 术士 


6.1 深度 网 络 调 优 的 基本 概念 


川 练 神经 网 络 的 方法 和 策略 ， 主 要 关注 以 下 方面 : 
































本 章 将 研究 j 
与 当前 问题 相 匹配 的 网 络 架构 ; 
超 参 数 调 优 基础 ; 
更 好 地 理解 学 习 过 程 。 
看 面 ， 我 们 将 介绍 最 相关 的 材 























显然 ， 本 章 不 会 覆盖 深度 学 习 领域 中 已 知 调 优 工作 的 方 方 
料 ， 让 你 了 解 深度 架构 调 优 的 核心 概念 。 第 7 章 将 重点 介绍 对 深度 网 络 中 最 著名 的 架构 进 
行 调 优 的 技术 : 


。 DBN 
。 CNN 
。 RNN 


目的 不 同 ， 构 建 的 神经 网 络 也 不 同 ， 我 们 从 总 体 想法 和 思路 开始 吧 。 





对 DBN 调 优 
本 章 会 在 与 DBN 调 优 相关 的 部 分 介绍 RBM 的 调 优 内 容 。 
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6.1.1 建立 深度 网 络 的 思 
当 开 始 行动 前 ， 你 应 该 问 自己 两 个 问题 。 


。 我 将 对 怎样 的 输入 数据 建 模 ? 
。 在 模型 被 构建 之 后 ， 我 想得到 怎样 的 输出 ? 


理解 正在 建 模 的 数据 类 型 在 很 大 程度 上 将 决定 你 需要 实现 哪 类 深度 学 习 的 架构 和 输入 层 。 
从 某 个 类 别 的 数据 中 确定 你 想 知道 的 内 容 ， 这 将 告诉 你 需要 获得 类 别 分 数 〈 用 概率 对 事物 
进行 分 类 ) 还 是 需要 产生 实 值 目标 输出 〈 回 归 )， 这 也 将 决定 你 需要 使 用 怎样 的 输出 层 。 
深度 网 络 的 许多 细节 都 有 变化 和 注意 事项 ， 但 是 这 两 个 问题 将 在 构建 深度 网 络 架构 时 帮助 
你 建立 一 个 设计 良好 的 基础 。 当 理解 了 这 两 点 之 后 ， 你 可 以 转 到 下 一 层 的 设计 决策 ， 其 重 
点 是 设置 参数 本 身 : 

层 数 
。 每 层 的 参数 数量 
我 们 还 需要 基于 参数 数量 ， 考 虑 特定 网 络 保 构 的 内 存 需求 。 层 数 和 每 层 的 参数 数量 将 表示 
最 终 网 络 能 够 代表 的 数据 中 结构 的 容量 。 对 于 一 些 问题 ， 可 以 用 相对 较 少 的 参数 〈 总 神经 
元 数量 ) 表示 一 个 特别 复杂 的 模型 。 
确定 了 网 络 架构 和 层级 之 后 ， 还 需要 考虑 一 些 其 他 要 素 ， 包 括 ; 
。 权重 初始 化 策略 
。 激活 函数 
。 损失 函数 
。 优化 算法 
。 小 批量 
， 正则 化 
权重 初始 化 策略 通常 取决 于 网 络 架构 的 类 型 以 及 输入 数据 的 类 型 。 能 否 很 好 地 初始 化 权重 
会 帮助 或 者 阻碍 学 习 过 程 。 每 层 都 需要 一 个 激活 函数 来 对 输入 和 输出 数据 之 间 的 非 线性 关 
系 建 模 。 激 活 函数 有 助 于 学 习 某 些 类 型 的 特性 ， 以 及 设置 输出 层 以 提供 回归 、 分 类 等 的 答 
罕 。 特 定 的 层 类 型 【激活 函数 类 型 ) 应 与 特定 架构 情况 下 的 特定 损失 函数 相 匹 配 。 
通过 损失 函数 影响 学 习 


损失 函数 用 于 定义 你 想 让 网 络 如 何 学 习 (例如 分 类 或 回归 )。 需 要 用 合适 的 
激活 函数 以 及 数据 /标签 类 型 来 匹配 损失 函数 。 

























































































根据 问题 的 领域 ， 还 需要 考虑 不 同类 型 的 优化 方法 。 


正则 化 方法 有 助 于 防止 模型 过 于 关注 数据 中 的 噪声 ， 并 保持 权重 尽 可 能 的 小 ， 以 便 泛 化 到 
整个 数据 总 体 ， 例 如 对 那些 在 训练 期 间 未 曾 见 过 的 样本 。 在 本 章 你 会 看 到 ， 前 面 提 到 的 许 
多 设计 决策 是 联系 在 一 起 的 ， 或 者 对 网 络 其 他 所 有 架构 的 决策 都 有 影响 。 本 章 旨 在 解释 这 
些 设计 的 相互 依赖 性 是 如 何 起 作用 的 。 下 面 将 这 些 高 层次 思想 的 部 分 内 容 总 结 为 更 清楚 的 
步骤 形式 ， 你 可 以 将 它 用 作 构 建 网 络 架构 的 指 
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6.1.2 ”构建 思路 的 步骤 


前 一 节 从 整体 上 讨论 了 构建 一 个 深度 网 络 架构 的 过 程 ， 这 些 过 程 总 结 为 下 面 的 步骤 ， 你 可 
以 将 这 个 指南 用 于 大 多 数 神经 网 络 建 模 问 题 。 


(1) 确定 输入 数据 是 什么 : 
输入 数据 类 型 与 网 络 架构 相关 。 
(2) 确定 预期 结果 是 什么 : 
a. 引导 我 们 配置 架构 ， 
b. 确定 输出 层 类 型 。 
(3) 建立 网 络 架 构 ， 并 考虑 以 下 问题 : 
a. 模型 、 结 构 和 成 本 函数 的 选择 都 很 重要 ， 
b. 根据 架构 选择 一 些 隐 藏 层 ， 
c. 根据 网 络 整体 架构 和 特定 层 的 目标 选择 每 层 的 激活 函数 。 
(4) 对 训练 数据 执行 以 下 任务 : 
a. 数据 清洗 ， 
b. 结果 可 视 化 ; 
c. 执行 向 量化 和 规范 化 ; 
d. 平 衡 类 别 (如 有 必要 )， 





e. 他 


2 

















建 分 别 用 于 测试 、 训 练 和 验证 的 数据 分 片 。 


(5) 考虑 具有 平衡 子 数据 集 的 超 参 数 调整 策略 : 
增加 子 数据 集 的 大 小 并 根据 需要 调整 超 参 数 。 


(6) 如 果 最 终 训 





练 数据 集 很 大 ， 那 么 使 用 Spark 更 快 地 训练 更 多 数据 (在 适当 的 情况 下 )。 


这 些 步骤 在 特定 的 调 优 细节 方面 仍然 不 够 具体 ， 但 是 它们 为 我 们 构建 任何 深度 网 络 提供 了 通 
常 的 步 又。 当 本 章 结束 时 ， 和 希望 你 会 掌握 一 套 很 好 的 基本 调 优 原则 ， 以 通 向 当今 数据 科学 的 
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下 来 深入 研究 深度 网 络 调 优 的 细节 ， 第 一 步 是 匹配 输入 数据 与 网 络 架构 。 


配 输入 数据 与 网 络 架 构 


正如 前 一 节 所 讨论 的 ， 应 当 从 考虑 源 数据 集 所 表示 的 内 容 来 开始 深度 网 络 设计 过 程 ， 如 下 


6.2 ” 匹 
所 示 ， 
。 列 式 数据 





。 图 像 数据 
。 音频 数据 
。 视频 数据 
。 时 间 序 列 数 








据 





列 式 或 逗号 分 隔 值 (CSV) 数据 ， 通 常 是 从 关系 数据 库 管理 系统 (RDBMS) 导出 的 表 或 
联接 在 一 起 的 多 组 数据 的 结果 非 规范 化 的 表 ， 如 下 所 示 : 





M 5,0 














.365,0.095,0.514,0.2245,0.101,0.15,15 


,0.45 
M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7 
F,0.53,0. 


42,0.135,0.677,0.2565,0.1415,0.21,9 





44,0.365,0.125,0.516,0.2155,0.114,0.155,10 
33,0.255,0.08,0.205,0.0895,0.0395,0.055,7 
42 


M,0 
I,0 
1,0.425,0.3,0.095,0.3515,0.141,0.0775,0.12,8 








这 种 数据 既 没 有 可 提取 特征 的 图 像 像 素 ， 也 没有 需要 处 理 的 时 间 依 赖 (时 间 序 列 数据 )， 
因此 网 络 架 构 可 以 相对 简单 。 这 里 建议 你 从 一 个 简单 的 多 层 感 知 器 神经 网 络 开 始 。 

对 于 图 像 分 类 任务 ， 我 们 会 使 用 CNN。 近 年 来 CNN 已 被 证 明 最 擅长 图 像 处 理 任务 (相关 
更 多 信息 ， 请 参阅 第 4 章 )。 


序列 数据 是 任意 模型 中 有 一 系列 输入 的 情况 。 常 见 的 序列 数据 是 由 服务 器 或 传感器 生成 的 
日 志 数据 ， 时 间 序列 数据 也 是 其 中 一 种 。 我 们 将 时 间 序列 数据 定义 为 具有 一 系列 值 的 数 
据 ， 每 个 数据 都 带 有 时 间 值 。 这 些 值 按时 间 顺 序 排列 ， 用 于 跟踪 随 着 时 间 推移 的 实例 的 活 
动 。 在 大 多 数 机 器 学 习 模 型 中 ， 需 要 基于 每 组 时 间 序列 数据 提取 一 些 特征 ， 来 为 训练 算法 
生成 单个 输入 向 量 。 对 于 任何 序列 或 时 间 序列 数据 ， 应 该 考虑 使 用 循环 神经 网 络 ， 这 种 神 
经 网 络 能 对 N 个 输入 向 量 建 模 ， 而 不 限于 单个 输入 向 量 (参见 第 4 章 )， 这 使 得 我 们 能 够 
对 随时 间 推 移 的 活动 建 模 。 

循环 神经 网 络 通常 在 音频 输入 数据 上 表现 良好 。 音 频数 据 具有 时 间 特 性 ， 一 系列 音频 样本 
的 时 间 序列 能 够 产生 波形 ， 使 得 它 非常 适合 用 循环 神经 网 络 进行 训练。 

对 于 视频 数据 ， 需 要 使 用 更 精细 的 计算 技术 从 视频 的 一 系列 图 像 中 提取 答案 。 解 决 这 个 问题 
的 一 种 方法 是 结合 卷 积 、 最 大 池 化 、 密 集 (前 僻 ) 和 循环 (LSTM) 层 来 对 视频 的 每 一 帧 进 
行 分 类 。 另 一 种 方法 是 将 视频 的 每 一 帧 提取 到 图 像 文 件 中 ， 然 后 使 用 CNN 分 析 每 一 帧 。 
视频 数据 处 理 
在 实践 中 ， 使 用 视觉 流 预 处 理 能 起 很 大 的 作用 ， 它 有 助 于 捕获 一 些 在 单个 由 
中 不 存在 的 、 数 据 中 的 短期 时 间 关 系 (例如 连续 帧 之 间 的 移动 )。 







































































小 结 
对 于 特定 的 数据 输入 类 型 ， 推 荐 使 用 相应 的 网 络 架构 。 表 6-1 对 这 些 建议 做 了 清晰 的 总 结 。 
表 6-1: 匹配 输入 类 型 与 网 络 架 构 




















输入 数据 类 型 建议 架构 

列 式 数据 ， 即 CSV 数据 ”多 层 感知 器 

图 像 CNN 

序列 数据 RNN， 尤 其 是 LSTM 
音频 RNN， 尤 其 是 LSTM 
视频 CNN+RNN 混合 结构 


网 络 架构 的 旋转 门 

尽管 对 每 个 数据 类 型 ， 使 用 推荐 的 网 络 架构 可 能 工作 得 很 好 ， 但 是 请 继续 关 
注 正在 进行 的 大 量 新 研究 。 近 来 网 络 架构 的 新 变 体 发 布 的 速度 很 快 ， 所 以 可 
以 以 给 出 的 建议 为 好 的 起 点 ， 但 也 要 关注 那些 对 这 些 架 构 的 研究 。 
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稍 后 将 详细 探讨 网 络 架构 ， 研 究 如 何 设置 层 和 神经 元 的 数量 。 


6.3 ”模型 目标 与 输出 层 的 关系 


前 面 讨论 了 将 输入 数据 类 型 与 特定 神经 网 络 架 构 相 匹配 的 话题 ， 是 时 候 检 查 输出 层 了 ， 它 
涉及 更 多 的 基 虑 ， 因 为 它 关 系 到 我 们 期 望 从 生成 的 模型 中 得 到 怎样 的 答案 。 
每 层 都 有 一 个 相应 的 激活 函数 ， 用 于 将 信息 传递 到 下 一 层 。 如 果 我 们 想 从 网 络 中 获得 输 
出 ， 最 后 一 层 会 被 称 为 “输出 层 ” ， 并 根据 预期 的 输出 或 答案 〈 例 如 分 类 或 回归 ， 稍 后 介 
绍 ) 设置 其 激活 函数 的 类 型 。 


6.3.1 回归 模型 的 输出 层 

回归 模型 生成 一 个 实 值 的 输出 ， 比 如 根据 面积 计算 房子 的 价格 。 回 归 模型 输出 层 的 两 个 主 

要 考虑 因素 是 损失 函数 和 激活 函数 。 

口 损失 函数 
对 于 回归 输出 层 的 损失 函数 ， 我 们 有 多 个 有 效 的 选择 。 最 常见 的 是 均 方 误差 (MSE) 或 
误差 的 平方 和 (1L2)。 

口 激活 函数 

在 这 种 情况 下 ， 我 们 使 用 恒 等 (线性 ) 输出 函数 。 































































































回归 输出 层 及 其 他 边界 情况 
有 时 回归 输出 层 使 用 tanh 激活 函数 ( 仅 当 所 有 数据 被 保证 在 [-1, 1] 范围 内 ) ， 或 者 数 
据 被 保证 在 [0, co) 范围 内 时 使 用 softplus 或 修正 线性 的 变 体 (leaky ReLU、 随 机 leaky 
ReLU) 。 


当 标签 数据 在 [0, oo) 范围 内 ， 在 回归 中 使 用 ReLU 会 怎样 7 虽然 激活 函数 本 身 可 以 产 
生 正 确 的 输出 值 范围 ， 也 同样 是 [0, oo)， 但 是 还 有 一 个 问题 需要 注意 : 所 谓 的 “死亡 
ReLU” 问 题 。 

本 质 上 ，ReLU 可 能 陷入 激活 函数 的 输出 为 0 的 部 分 。 如 果 发 生 这 种 情况 ， 无 论 网 络 
输入 的 值 是 多 少 ，ReLU 的 输出 (网络 预测 ) 将 总 为 0。 其 他 的 ReLU 变 体 (leaky 和 
随机 leaky) 和 softplus 则 不 存在 这 个 问题 。 











6.3.2 分 类 模型 的 输出 层 

在 分 类 模型 中 ， 输 出 层 中 及 个 输出 单元 ， 并 为 每 个 输出 单元 生成 一 个 类 别 分 数 。 如 果 
N = 1， 模 型 就 带 有 单个 标签 。 在 这 种 情况 下， 我们 将 对 条 件 是 否 满足 进行 分 类 (例如 垃 
圾 邮件 和 非 垃 圾 邮件 )。 如 果 N > 1， 那 么 对 每 个 类 别 的 输入 进行 评分 ， 并且 使 用 不 同 的 
输出 层 配 置 。 这 种 情况 下 ， 可 以 把 一 个 文档 分 类 为 : 体育、 商业 、 政 治 。 也 有 文档 属于 多 
个 类 别 的 情况 ， 例 如 体育 和 商业 。 






































1. 单 标签 分 类 模型 

在 基本 的 单 标签 示例 或 者 二 元 分 类 器 中 ， 对 输出 层 使 用 sigmoid 激活 函数 会 得 于 
它 的 值 介 于 0.0 到 1.0 之 间 ， 表 示 文 档 是 否 确实 是 垃圾 邮件 。 

当 处 理 单个 输出 标签 (对 于 两 个 类 别 ， 有 0.0 到 1.0 范围 内 的 单个 值 ) 时 ， 我 们 对 输出 层 
使 用 交 又 人 损 失 函 数 。 


= 
| 本 


单个 输出 ， 




















二 元 分 类 器 的 输出 是 一 个 还 是 两 个 
有 一 种 情况 : 二 元 分 类 器 使 用 softmax 激活 函数， 输出 层 有 两 个 输出 。 在 这 种 情况 
下 ， 输 出 将 是 和 为 1 的 两 个 值 ， 较 大 的 值 是 标签 的 索引 。 对 于 这 种 情况 ， 我 们 使 用 
MCXENT 损失 函数 配合 softmax。 
围绕 对 二 元 分 类 模型 建 模 时 哪 种 输出 层 方案 最 好 ， 目 前 还 存在 争议 。 在 数学 上 ， 使 用 
sigmoid 单 输出 与 使 用 具有 两 个 输出 单元 的 softmax 输出 层 相 同 (使 用 MCXENT/ 负 对 
数 似 然 ， 以 及 独 热 表示 方式 的 [1, 0] 或 [0, 1]， 而 不 是 0 或 1)。 











2. 具有 两 个 以 上 标签 的 模型 
当 有 两 个 以 上 标签 时 ， 需 要 考虑 两 种 情况 。 
有 时， 对 于 多 个 标签 ， 我 们 希望 模型 给 出 最 可 能 的 那个 标签 。 这 被 称 为 “多 类 别 分 类 ”。 
其 他 时 候 , 对 于 多 个 标签 , 我 们 希望 每 个 输出 带 有 多 个 标签 (例如 “人 + 车 ”), 这 被 称 为 
“多 标签 分 类 ”。 
下 面 来 了 解 每 种 情况 。 
多 类 别 分 类 模型 。 回 顾 一 下 第 2 章 的 讨论 ， 如 果 有 一 个 多 分 类 建 模 问 题 ， 但 我 们 只 关心 这 
些 类 别 中 的 最 高 得 分 ， 那 么 对 输出 层 使 用 softmax 激活 函数 。 在 这 个 场景 中 ， 输 出 单元 的 
数量 等 于 要 分 类 的 类 别 数量 。 
输出 层 所 有 单元 的 输出 总 和 为 1.0。 假 设 输出 是 每 个 类 别 的 概率 ， 可 能 每 个 输出 值 不 会 
好 等 于 1.0 或 0.0， 而 是 0.0 到 1.0 之 间 的 某 个 值 。 我 们 选择 概率 最 高 的 类 别 〈( 输 
作为 分 类 结果 ， 使 用 arg-max() 函数 来 获得 得 分 (预测 类 别 ) 最 高 的 类 别 的 索引 。 
下 面 是 在 神经 网 络 的 输出 层 上 设置 了 softmax 激活 函数 的 代码 片段 。 
.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 


.activation(Activation.SOFTMAX) 
.NIn(numHiddenNodes).nOut(numOutputs) .build()) 


这 个 示例 中 特定 的 输出 层 部 分 有 用 .activation() 方法 指定 的 层 类 型 。 

大 多 数 时 候 ， 负 对 数 似 然 与 softmax 激活 函数 一 起 使 用 ， 如 前 面 的 代码 片段 所 示 。 有 了 时 多 
分 类 交 又 炉 的 用 法 与 之 类 似 ， 但 它 相 当 于 负 对 数 似 然 。 

数据 表示 应 该 是 输出 的 “ 独 热 ”编码 。 这 与 建立 输入 /输出 训练 向 量 有 关 ， 需 要 记 住 将 输 
出 向 量 转 换 为 独 热 表示 。DL4J 的 RecordReaderDataSetIterator 可 以 帮 有 我 们 自动 将 分 类 索 
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引 (0 到 [类 别 数 -1]) 转换 为 独 热 向 量 。 

处 理 大 量 的 标签 

对 于 目标 标签 数量 达到 一 万 个 的 情况 ， 可 以 使 用 分 级 softmax 输出 层 。 分 级 
softmax 是 softmax (更 ) 快速 的 逼近 , 适合 有 大 量 类 别 的 情况 :。 我 们 应 该 从 
计算 原因 而 非 提 高 准确 度 的 角度 考虑 它 。 














多 标签 分 类 模型 。 如 果 希 望 每 个 输出 有 多 个 分 类 (例如 “人 + 车 ”)， 不 应 将 softmax 作为 
输出 层 激活 函数 ， 而 应 在 有 多 个 输出 单元 的 输出 层 使 用 sigmoid 油 活 图 数 ， 每 个 输出 单元 
代表 不 同 的 类 别 ， 然 后 每 个 单元 分 别 给 出 每 个 类 别 的 概率 。 
在 这 种 场景 中 ， 再 次 对 输出 层 使 用 二 元 交 又 灶 (LossFunction.XENT) 损失 函数 。 
训练 数据 时 我 们 将 输出 向 量 的 数据 表示 成 每 个 类 别 为 0 或 1。 这 与 前 面 提 到 的 独 热 表 示 不 
同 ， 因 为 有 多 个 标签 条 目的 值 可 以 为 1.0， 而 独 热 只 能 有 一 个 1。 
多 个 输出 层 
假设 用 神经 网 络 预测 汽车 制造 商 〈 福 特 、 丰 田 、 通 用 等 ) 以 及 车 的 类 型 
(SUV、 跑 车 、 卡 车 等 )。 在 这 种 情况 下 ， 需 要 使 用 ComputationGraph+ 多 个 输 
出 层 。 欲 获取 更 多 信息 ， 请 访问 https://deeplearning4j.org/compgraph#multitask。 

















快速 参考 : softmax 与 sigmoid 激活 函数 对 比 
softmax 激活 函数 将 输出 的 和 限制 为 1.0 〈 即 概率 ) ， 而 sigmoid 激活 函数 则 分 
别 限 制 输出 值 。 例 如 softmax 层 输出 的 概率 全 加 起 来 才 到 1.0， 而 sigmoid 层 
每 个 单元 的 输出 值 都 有 可 能 是 0.9，sigmoid 层 没 有 这 种 “横向 ”约束 。 


让 JE 小 JE 和 

6.4 处 理 层 的 数量 、 参 数 的 数量 和 存储 器 
在 神经 网 络 中 ， 层 的 数量 和 每 层 神经 元 的 数量 决定 模型 参数 总 数量 。 网 络 中 参数 总 数量 取 
决 于 层 的 类 型 以 及 每 层 神 经 元 之 间 的 连接 (或 权重 ) 的 数量 (加 上 偏 置 权重 )。 

层 的 类 型 与 神经 元 数量 

所 使 用 的 层 的 类 型 也 会 影响 网 络 中 参数 的 数量 。 对 于 同样 的 层 输入 /输出 大 

小 ，LSTM 层 的 神经 元 比 普通 循环 神经 网 络 层 更 多 ， 在 DL4J 中 循环 神经 网 络 

有 多 个 DenseLayer， 而 DenseLayer 又 比 大 小 与 之 相似 的 CNN 层 有 更 多 参数 。 
























































随 着 参数 数量 增长 ， 需 要 建 模 的 功能 变 得 更 加 复杂 。 超 过 某 个 点 之 后 ， 参 数 的 数量 多 到 创 
建 了 一 个 过 拟 合 了 数据 集中 太 多 细微 特征 的 模型 ， 这 样 的 模型 不 能 泛 化 。 








注 1: 分 级 softmax 不 是 唯一 的 解决 方案 ， 关 于 另 一 个 解决 该 问题 的 奉 代 方案 ， 请 参阅 Vishwanathan 等 人 
于 2015 年 发 表 的 文章 :“BlackOut: Speeding up Recurrent Neural Network Language Models With Very 


Large Vocabularies” 。 





对 于 不 同 的 网 络 架构 ， 设 置 层 、 神 经 元 和 连接 权重 的 方式 存在 着 变化 。 有 一 些 针 对 神经 网 
络 的 高 层次 思路 主要 应 用 于 前 馈 多 层 感 知 器 神经 网 络 ， 本 章 稍 后 结合 具体 架构 详细 介绍 。 


6.4.1 ”前 馈 多 层 神经 网 络 

对 于 前 馈 多 层 感 知 器 神经 网 络 ， 输 入 层 的 输入 单元 需要 与 输入 向 量 的 数量 相同 ， 输 出 层 将 
简单 地 等 于 需要 分 类 的 标签 数量 和 用 于 回归 的 单个 神经 元 。 接 下 来 将 讨论 确定 神经 网 络 的 
层 和 神经 元 数量 的 策略 。 

1. 决定 隐藏 层 的 数量 

隐藏 层 的 数量 和 数据 集 大 小 也 有 关系 。 随 着 数据 集 大 小 的 增长 ， 也 需要 更 多 隐藏 层 。 例 如 
MNIST， 它 只 有 大 约 3 到 4 个 隐藏 层 (超过 这 个 深度 后 ， 准 确 度 会 降低 )， 但 是 Facebook 
的 DeepFace 使 用 了 9 个 隐藏 层 ， 而 我 们 猜测 那 是 一 个 非常 大 的 数据 集 。 

隐藏 层 数 量 的 经 验 法 则 

隐藏 层 的 经 验 法 则 是 数据 集 越 大 ， 需 要 的 隐藏 层 和 神经 元 就 越 多 ， 而 不 会 带 
来 过 拟 合 。 因 为 有 更 多 的 训练 数据 ， 就 不 太 可 能 过 拟 合 。 一 个 更 大 的 网 络 可 
能 达到 更 高 的 准确 度 。 如 果 网 络 规模 太 小 ， 并 且 输 入 数据 集 较 大 ， 会 陷入 欠 
拟 合 的 风险 ， 并 且 数 据 集 的 准确 度 不 会 达到 最 佳 。 















































对 层 和 参数 数量 影响 更 大 的 另 一 个 因素 是 数据 集 的 较 大 变化 。 

2. 决定 每 层 神 经 元 的 数量 

如 有 果 网 络 在 隐藏 层 中 的 神经 元 太 少 ， 将 很 难 在 训练 时 很 好 地 对 数据 建 模 。 如 果 网 络 中 有 大 
多 的 参数 ， 我 们 要 么 需要 处 理 过 拟 合 问题 ， 要 么 耗费 更 多 的 处 理 时 间 来 找到 一 个 拟 合 良好 
的 模型 。 

考虑 神经 元 数量 的 一 个 很 好 的 思路 是 : 层 的 神经 元 数量 应 该 逐渐 下 降 。 也 要 注意 隐藏 层 中 
节点 数量 不 少 于 输入 层 中 节点 数量 四 分 之 一 的 情况 。 如 果 隐 藏 层 中 神经 元 过 多 ， 也 会 增加 
数据 集 过 拟 合 的 可 能 性 。 

层 中 神经 元 数量 的 经 验 法 则 

层 大 小 、 正 则 化 和 数据 量 需 要 被 正确 组 合 。 大 的 层 加 上 正则 化 不 足 会 不 利于 


泛 化 。 更 大 (和 更 多 ) 的 层 (技术 上 来 说 ,意味 着 更 多 参数 ) 通常 需要 更 积 
极 的 正则 化 (或 更 多 数据 ) 以 避免 过 拟 合 。 









































有 些 情况 下 ， 对 所 有 层 使 用 相同 数量 的 隐藏 参数 的 做 法 比 减少 神经 元 数量 的 做 法 效果 更 
好 ， 然 而 这 种 效果 可 能 只 在 某 些 类 型 的 数据 集 上 起 作用 。 
6.4.2 控制 层 和 参数 的 数量 


通过 去 除 神经 网 络 中 的 参数 (或 神经 元 ) 来 解决 诸如 过 拟 合 之 类 的 训练 问题 是 一 种 常见 的 
(一 开始 就 能 想到 的 ) 思想 ， 而 实践 中 往往 设置 隐藏 层 神经 元 数量 超过 最 优 数 。 
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经 验 表 明 ， 当 使 用 无 监督 预 训 练 (DBN 中 的 RBM) 神经 网 络 时 ， 隐 藏 层 神经 元 的 最 优 数 
要 大 得 多 。 一 个 实际 的 网 络 ， 隐 藏 层 神经 元 数量 可 能 在 数 百 个 单元 到 数 千 个 单元 之 间 。 而 
为 了 防止 过 拟 合 ， 建 议 使 用 以 下 正则 化 技术 : 

。 Ll 

。 工 2 

。 Dropout 

。 输入 噪声 

。 DropConnect 

原因 是 较 小 的 网 络 的 局 部 极 小 值 将 很 少 (但 可 能 是 坏 的 模型 )， 而 较 大 的 网 络 的 局 部 极 小 
值 将 更 多 。 不 使 用 较 小 的 网 络 ， 因 为 担心 会 过 拟 合 训练 数据 集 。 相 反 ， 只 要 计算 平台 允 
许 ， 就 可 以 向 问题 抛 出 尽 可 能 多 的 参数 ， 并 使 用 上 述 技术 来 克服 过 拟 合 。 


不 要 过 分 依赖 参数 


虽然 前 面 说 在 这 个 问题 上 可 以 抛 出 更 多 的 参数 ， 但 要 实事 求 是 。 单 单一 层 的 
神经 元 就 达到 100 万 的 做 法 可 能 不 是 最 好 的 ， 即 使 硬件 有 能 力 处 理 它 。 















































随 着 训练 数据 集 的 变化 和 大 小 的 增加 ， 建 议 慢 慢 增加 隐藏 层 数量 和 每 层 的 神经 元 数量 。 





添加 更 多 数据 以 抑制 过 拟 合 
抑制 过 拟 合 的 最 佳 方法 之 一 是 (在 可 能 的 情况 下 ) 使 用 更 多 的 训练 数据 。 


确定 网 络 的 参数 数量 
在 实践 中 有 两 种 方法 确定 网 络 的 参数 数量 。 


手动 计算 某 种 架构 的 参数 数量 。 
使 用 DL4JAPI 计算 参数 数量 。 


可 以 简单 地 把 每 层 的 参数 数量 相 加 ， 计 算出 网 络 中 的 参数 数量 。 表 6-2 给 出 了 一 些 常 用 层 
的 参数 数量 。 


表 6-2: 计算 每 种 网 络 层 的 参数 数量 

















层 类 型 参数 数量 
全 连接 (如 DL4J 的 密集 层 、MLP、 输 出 层 ) zz 史上 于 

卷 积 CE a 

LSTM RNN (如 GravesLSTM) an nD) + (dn +3) 
标准 (普通) RNN nn tm +H 

















以 下 是 参数 计算 的 说 明 。 


五 -1 
n 


输入 的 数量 (前 一 层 L-1 的 大 小 )。 
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当前 层 工 的 大 小 。 
ad 和 有 

卷 积 层 的 核 的 高 度 和 宽度 。 
CC 和 at 


卷 积 层 的 输入 和 输出 深度 /通道 。 
注意 ,一 些 类 型 的 层 没 有 任何 参数 ， 例 如 子 采 样 、 激 活 层 以 及 DL4J 的 LossLayer。 一 个 复 
杂 的 情况 是 网 络 混 有 卷 积 层 和 密集 (或 输出 ) 层 。 对 于 密集 (或 输出 ) 层 ， 在 卷 积 / 子 采 
样 层 之 后 ， 需 要 确定 最 后 一 个 卷 积 层 的 激活 数组 的 大 小 。 我 们 把 它 的 长 度 (每 个 样本 ) 作 
为 密集 /输出 层 的 性 : 值 。 例 如 ， 如 果 最 后 的 卷 积 层 输 出 了 100 个 通道 的 5x5 激活 值 ， 那 
么 应 该 使 用 性 :=5 x 5 x 100=2500 作为 密集 /输出 层 的 输入 ”。 


假设 有 一 个 DL4J 配置 ， 那 么 该 如 何 检查 参数 的 数量 呢 ? 这 里 有 一 个 简单 的 方法 : 


MultiLayerConfiguration configuration = ... 
MultiLayerNetwork network = new MultiLayerNetwork(configuration); 
network.init(); 





























System.out.println("Total number of parameters: " + network.numParams()); 
for( int i=0; i<network.getnLayers(); i++ ){ 
System.out.println("Layer " + i + "number of parameters: "+ 


network.getLayer (i).numparams()); 


} 


6.4.3 估计 网 络 内 存 需求 

如 果 网 络 配置 超过 了 运行 时 使 用 的 硬件 的 能 力 ， 那 么 当 内 存 完 全 耗 尽 时 ， 训 练 将 失败 。 虽 
然 严 格 来 说 这 与 调 优 无 关 ， 但 是 对 大 型 网 络 ， 这 很 重要 一 一 毕竟 如 果 不 能 先 训 练 网 络 ， 就 
谈 不 上 调 优 网 络 。 
当 训练 神经 网 络 时 ， 内 存 主要 用 于 分 配 多 维 数组 (DL4J 中 的 INDArrays)。 在 训练 神经 网 
络 时 ， 这 些 数组 有 六 种 不 同 的 用 途 : 


。 网 络 参 数 

。 参数 梯度 (与 网 络 参 数 大 小 相同 的 ) 
。 网 络 激 活 值 
I 络 激 活 值 梯度 (与 网 络 激 活 值 大 小 相同 ) 

。 更 新 器 状态 ( 即 动 量 或 RMSProp 的 历史 值 ， 参 数 数量 的 整数 倍 ) 
。 训练 数据 


此 外 需要 考虑 工作 内 存 / 临时 数组 、 形 状 缓 冲 区 信息 、 异 步 预 加 载 数据 以 及 其 他 所 以 需要 
JVM 运行 的 事务 的 开销 。 












































. 
芝 














注 2: 有 关 计 算 输 入 大 小 的 更 多 细节 ， 请 参阅 斯 坦 福 大 学 的 CS231n 课程 笔记 和 DL4J 的 ConvolutionMode 的 
JavaDoc。( 注 意 , 也 可 以 使 用 DL4J 的 InputType 功能 计算 和 设置 numInputs 值 , 并 使 用 DL4J 配 置 网 络 。) 
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数学 上 ， 训 练 神经 网 络 (以 字 节 为 单位 ) 的 最 小 内 存 需 求 可 以 根据 以 下 表达 式 估计 。 
NN, 4[n (2+u)+m(2a+q)] 


ytes, test params 


而 在 测试 阶段 (训练 后 ) 使 用 网 络 ， 我 们 只 需要 : 
Noesien 全 4 [rams 二 m(a 证 q)] 


其 中 : 

。u 是 更 新 器 的 大 小 (nu = 0 为 SGD, u = 1 为 动量 、RMSProp 和 Adagrad; u = 2 为 
Adam 和 Adadelta 更 新 器 ) ， 

。 九 是 小 批量 大 小 ; 

。 a 是 单个 样本 (所 有 层 ) 的 网 络 激活 值 的 大 小 ; 

。 4 是 单个 样本 的 大 小 。 


并 行 处 理 与 内 存 计 算 


当 训 练 扩展 到 多 台 机 器 时 (使 用 Spark 或 ParaLteLwrapper) ， 需 要 乘 以 Noy es 
和 模型 副本 的 数量 。 

















关于 DL4J、 内 存 和 精度 的 说 明 


默认 情况 下 ，DL4J (通过 ND4J) 对 所 有 INDArray 使 用 32 位 浮 点 (FP32) 数字 ， 这 
意味 着 一 个 带 有 N 个 元 素 的 INDArray 将 消耗 4V 个 字 节 。 也 可 以 将 64 位 浮 点 数字 
(FP64) 用 于 网 络 训练 ， 有 时 它 有 助 于 解决 数值 稳定 性 问题 (尽管 数值 稳定 性 问题 通 
常 表示 有 其 他 调 优 问题 存在 )， 然 而 FP64 更 消耗 内 存 (2 倍 ) 和 性 能 损失 (在 普通 的 
GPU 上 最 多 为 32 倍 ， 在 Tesla GPU 上 最 多 为 2 倍 )。 由 于 对 内 存 和 缓存 的 影响 ， 使 用 
FP64 时 CPU 性 能 也 将 受到 较 小 程度 的 影响 。 


最 后 还 需 注意 ，16 位 浮 点 (FP16) 格式 也 可 以 在 DL4J 中 用 于 在 GPU 的 CUDA 上 进 
行 训练 。 与 默认 的 FP32 数据 格式 相 比 ，FP16 格式 的 内 存 需求 将 减少 一 半 ， 从 而 支持 
更 大 的 网 络 、 更 大 的 批量 或 两 者 兼 有 ， 然 而 FP16 内 存 的 节省 是 以 显著 降低 数值 精度 
为 代价 ， 这 会 使 得 网 络 更 难 调 优 。 除非 真 的 需要 ， 否 则 如 果 刚 开始 调 优 神经 网 络 ， 或 
者 在 调 优 网 络 时 遇 到 困难 ， 请 使 用 默认 的 FP32。 至 于 表现 ，FP16 在 大 多 数 普通 的 
GPU 上 表现 非常 差 ， 因此 在 DL4J 中 FP16 仅 用 作 存 储 格式 。 实 际 操作 在 首先 将 数据 
转换 为 FP32 之 后 执行 。 











如 果 遇 到 给 定 硬 件 的 内 存 问题 ， 有 以 下 几 种 选择 ; 


(1) 降低 小 批量 大 小 m; 

(2) 使 用 更 好 的 硬件 (或 使 用 云 服务 ， 如 Azure、 亚 马 逊 云 服 务 或 谷歌 云 ) ; 
(3) 在 GPU 上 使 用 FP16 代替 FP32 (但 要 注意 数值 精度 的 降低 ) ; 

(4) 使 用 较 小 的 网 络 。 











» py 
6.5 权重 初始 化 策略 
权重 初始 化 会 极 大 地 影响 训练 过 程 ， 应 该 注意 使 用 适当 的 权重 初始 化 策略 ， 使 其 与 合适 的 
问题 场景 相 匹 配 。 初 始 化 权重 是 神经 网 络 和 深度 网 络 学 习 时 的 一 个 关键 起 点 。 
通常 使 用 以 下 策略 作为 权重 初始 化 的 基本 策略 。 
。 偏 置 通常 初始 化 为 0。 
隐藏 层 的 权重 需要 初始 化 ， 这 样 它们 就 打破 了 隐藏 单元 之 间 的 对 称 性 。 


通过 在 权重 初始 化 过 程 中 加 入 随机 性 来 打破 隐藏 单元 之 间 的 对 称 性 。 权 重 初始 化 应 该 是 输 
入 数量 (也 可 能 是 输出 ) 的 函数 。 





























在 使 用 ReLU 或 leaky ReLU 激活 函数 时 ， 使 用 WeightInit.XAVIER 或 者 
WeightInit.RELU 初始 化 权重 。 





如 果 权 重 太 大 ， 则 意味 着 输出 值 大 ， 梯 度 值 大 ， 这 在 学 习 过 程 中 显然 会 产生 有 害 的 影响 。 
初始 化 网 络 单元 的 偏 置 也 需要 处 理 。 学 习 的 早期 阶段 会 受到 初始 化 可 见 单元 偏 置 方 式 的 影 
响 。 初 始 化 网 络 偏 置 有 不 同 的 方法 ， 但 通常 默认 初始 化 为 0。0 的 初始 隐藏 偏 置 通常 在 特 
定 的 稀 疏 概率 的 场景 之 外 表现 都 很 好 。 
本 节 介 绍 的 两 个 具体 情况 分 别 是 连接 到 tanh 和 ReLU 单元 的 权重 。 通 党 它们 是 通过 从 有 典 
型 方差 的 〈 通 常 是 高 斯 或 均匀 ) 分 布 采样 来 随机 设置 的 。 在 很 多 情况 下 ， 可 以 基于 以 下 指 
导 方 针 采 取 行 动 。 
。 对 于 ReLU 家 族 激 活 函 数 (ReLU、leaky ReLU、 随 机 leaky ReLU 等 )， 在 DL4J 中 使 用 
WeightInit.RELU 来 初始 化 权重 。 
这 种 方法 基于 He 等 人 于 2015 年 发 表 的 论文 “Delving Deep into Rectifiers"， 在 某 些 情 
况 下 也 被 称 为 “He 初始 化 ”。 
。 对 于 其 他 大 多 数 激活 函数 (tanh、 便 等 函数 等 )， 使 用 WeightInit.XAVIER。 
这 种 方法 基于 Glorot 和 Bengio 于 2010 年 发 表 的 论文 “Understanding the Difficulty of 
Training Deep Feedforword Neural Networks”， 也 称 “Glorot 初始 化 ”。 
对 于 连接 到 tanh 单元 的 权重 ， 其 他 的 初始 化 方法 有 稀 政 初 始 化 等 。 
。 偏 置 通常 被 初始 化 为 0 (DL4 中 的 默认 值 )。 


简 而 言 之 ，ReLU 和 Xavier 的 初始 化 基于 网 络 架构 〈 层 大 小 ) 和 对 激活 函数 的 假设 来 设计 ， 

它们 做 以 下 两 件 事情 。 

。 确保 网 络 激活 的 变化 对 于 所 有 层 都 是 恒定 的 。 例 如 ， 在 网 络 后 面 的 层 中 ， 激 活 值 不 会 变 
得 太 大 或 太 小 。 

。 确保 所 有 层 的 激活 值 (和 参数 ) 的 梯度 变化 是 恒定 的 。 例 如 ， 梯 度 在 反 向 传播 到 前 本 
网 络 层 时 不 会 变 得 太 大 或 太 小 。 





























的 
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权重 初始 化 和 满足 两 个 条 件 
ReLU/Xavier 初始 化 不 能 在 层 大 小 不 同 (或 者 如 果 激 活 函 数 假设 不 成 立 ) 的 
网 络 中 同时 优化 这 两 个 约束 (激活 / 梯度 的 变化 )。 











RNN 的 正 交 权重 初始 化 
第 7 章 将 研究 特定 架构 (如 LSTM) 的 调 优 策略 。 值 得 注意 的 是 ，LSTM 和 门 控 循环 单元 
(GRU) 在 一 些 具有 正 交 权 重 初始 化 的 情况 下 表现 更 好 。 


6.6 ”使 用 激活 函数 
表 6.3 是 对 前 饶 网 络 中 与 数据 分 布 类 型 相 匹配 的 一 些 激活 函数 的 说 明 。 
表 6-3: 前 饶 网 络 中 目标 分 布 与 输出 层 激活 函数 的 关系 


















































目标 分 布 输出 层 激 活 函 数 

二 元 分 布 (0, 1) sigmoid 激活 函数 

分 类 目标 (1-of-K 编码 ) ”softmax 激活 函数 

连续 值 (有 界 范围 ) sigmoid 或 tanh (将 输出 范围 缩放 至 目标 范围 ) 

正 值 (没有 已 知 的 上 界 ) ”ReLU 家 族 激活 函数 、softplus 激活 函数 (或 使 用 对 数 规范 化 转换 为 无 界 连 续 值 ) 
连续 值 (无 界 ) 线性 激活 函数 (等 同 于 无 激活 函数 ) 








在 神经 网 络 文献 中 ，sigmoid 函数 最 为 常见 。 在 二 十 年 前 的 神经 网 络 实践 中 ，sigmoid 类 的 
国 数 很 流行 ， 今 天 它们 很 大 程度 上 已 经 不 再 适用 于 隐藏 层 了 。 

sigmoid 与 信息 丢失 

与 ReLU 激活 函数 相 比 ， 由 于 前 向 和 反 向 传播 中 的 饱和 ，sigmoid 函数 更 容 
易 丢 弃 信 息 ， 在 小 的 邻 域内 由 于 单个 参数 而 给 网 络 带 来 非 线性 影响 。 






































sigmoid 存在 大 量 输入 零 梯度 问题 。 这 对 小 批量 处 理 来 说 不 是 一 个 问题 ， 但 是 需要 注意 初 
始 化 权重 以 避免 饱和 。 

sigmoid 激活 功能 的 下 降 

人 们 现在 更 青睐 leaky ReLU 激活 函数 而 非 sigmoid 向 活 国 数 。leaky ReLU 
激活 函数 既 没 有 sigmoid/tanh 的 梯度 消失 问题 ， 也 没有 普通 ReLU 的 “死亡 
ReLU” 问 题 。 

最 好 不 使 用 sigmoid 隐藏 层 。 











ReLU 激活 函数 (分 段 线 性 单元 ) 是 如 今 现代 深度 网 络 中 最 流行 的 隐藏 单元 类 型 ， 在 CNN 
中 ReLU 常用 作 卷 积 层 的 激活 函数 。 人 们 还 发 现 ， 与 sigmoid 和 tanh 函数 相 比 ，SGD 能 加 
快 ReLU 的 学 习 。ReLU 在 计算 上 的 成 本 也 比 sigmoid 和 tanh 函数 更 低 。 








死亡 ReLU 问题 








在 使 用 ReLU 时 必须 小 心 ， 因 为 有 些 单元 可 能 永远 不 会 在 整个 训练 数据 集 上 
被 激活 〈《 有 时 称 为 “死亡 ReLU 问题 ”)。 

网 络 仍然 可 以 在 包含 许多 “死亡 ”ReLU 单元 的 情况 下 学 习 ， 然 而 这 些 单 元 
` 会 对 网 络 输 出 做 出 贡献 ， 导 致 了 算 力 的 浪费 及 网 络 有 效 容量 变 低 。 

最 好 的 做 法 是 使 用 leaky ReLU 变 体 ， 它 (与 普通 的 ReLU 不 同 ) 对 于 所 有 输 
入 值 都 具有 非 零 梯 度 。 

















hard tanh 激活 函数 存在 与 ReLU 激活 函数 类 似 的 零 梯度 问题 ， 它 也 在 部 分 输入 范围 上 为 零 
梯度 。 有 具体 说 来 ， 对 于 小 于 -1 和 大 于 +1 的 输入 ， 梯 度 为 零 。 








关于 Maxout 的 说 明 
Maxout 模型 是 使 用 Maxout 单元 的 前 馈 网 络 。Maxout 单元 被 视 作 ReLU 的 推广 ， 但 没 
有 死亡 单元 的 问题 。Maxout 单元 也 使 得 每 个 神经 元 的 参数 数量 变 为 两 倍 ， 增 加 了 总 体 
的 参数 数量 。 


Maxout 单元 能 够 在 ReLU 不 能 很 好 工作 的 场景 中 学 习 。ReLU 和 Maxout 单元 的 区 别 
在 于 Maxout 单元 是 分 段 线性 的 ， 其 中 每 一 段 线性 函数 都 有 自己 的 权重 向 量 。Maxout 
单元 的 这 个 特点 使 得 它 避 免 了 ReLU 单元 容易 出 现 的 在 某 些 地 方 学 习 停 滞 的 问题 。 











激活 函数 汇总 

表 6-4 总 结 了 本 节 所 讨论 的 激活 函数 。 

表 6-4: 常用 激活 函数 及 其 使 用 方法 列表 
函数 名 。 使 有 场景 
线性 避 归 的 输出 层 


sigmoid 。 二 元 分 类 输 
。 输出 值 范围 在 [0, 1] 




















户 


LH 
D/A 












































。 失去 青睐 ,不 要 在 隐藏 层 使 用 
tanh 。 连续 数据 ， 范 围 在 [-1, 1] 

。 LSTM 层 
softmax 多 类 别 分 类 模型 的 输出 层 
ReLU 。 RBM 





。CNN 层 
。 多 层 感知 器 网 络 层 


nu 


通常 建议 尝试 ReLU 激活 函数 以 供 一 般 使 用 ， 但 要 注意 学 习 率 以 及 网 络 中 的 死亡 神经 元 。 
为 了 克服 这 些 影响 ， 可 以 尝试 leaky ReLU 激活 函数 或 Maxout 激活 函数 。tanh 激活 函数 是 
另 一 个 替代 函数 ， 但 实践 中 发 现 它 执 行 起 来 比 ReLU 和 Maxout 激活 函数 差 。sigmoid 单元 
通常 仅 用 于 输出 层 的 单 标签 分 类 ， 并 且 已 经 不 再 适用 于 隐藏 层 。 
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6.7 ”应 用 损失 函数 


损失 函数 让 优化 函数 知道 它 在 预期 任务 中 表现 如 何 。 在 前 面 的 章 市 中 ， 我 们 参考 了 损失 函 
数 在 模型 目标 (如 输出 层 损失 函数 ) 场景 中 的 使 用 。 以 下 是 关于 损失 函数 在 其 他 场景 的 一 
些 说 明 : 在 哪里 使 用 它们 最 高 效 ， 以 及 使 用 时 的 注意 事项 。 简 单 说 来 ， 损 失 函 数 只 在 两 个 
地 方 使 用 。 


。 输出 层 (或 损失 层 )。 

支持 无 监督 逐 层 预 训 练 的 层 ， 例 如 自动 编码 器 和 VAE。 
大 多 数 层 〈 卷 积 层 、 密 集 层 、LSTM 等 ) 没有 (也 不 能 有 ) 损失 函数 ， 因 为 它们 不 能 以 逐 
层 的 方式 预 处 理 。 
除了 本 章 前 面 列 出 的 分 类 损失 函数 外 ， 其 他 分 类 损失 函数 包括 hinge 损失 和 人 逻辑 损失 。 当 
网 络 必 须 针 对 硬 分 类 进行 优化 时 ，hinge 损失 是 最 常用 的 损失 函数 。 例 如 0= 非 欺 诈 和 1= 
欺诈 ， 它 习惯 上 被 称 为 “0-1 分 类 器 "。 当 我 们 对 概率 比 对 硬 分 类 更 感 兴趣 时 ， 使 用 逻辑 
损失 函数 。 例 如 使 用 人 工人 循环 解决 方案 标记 溃 在 的 欺诈， 或 者 在 点 击 广 告 可 以 得 到 1 美 
元 收益 的 前 提 下 ， 预 测 某 和 人 点击 广 告 的 可 能 性 。 预 测 有 效 概率 意味 着 生成 一 个 0 到 1 之 
间 的 数字 。 



































二 元 分 类 与 hinge 损失 
我 们 主要 使 用 hinge 损失 来 进行 二 元 分 类 。hinge 损失 有 对 多 类 别 分 类 的 扩展 
(如 一 对 所 有 ， 或 一 对 一 ) ， 这 里 没有 涉及 。 








理解 训练 过 程 中 的 调试 输出 
在 训练 期 间 ， 将 看 到 如 下 所 示 的 命令 行 输出 : 


21:36:00.358 [main] INFO o.d.o.L.ScoreIterationListener 
- Score at iteration 0 
is 0.5154157920151949 


最 后 的 值 是 当前 小 批量 中 每 个 样本 的 损失 函数 的 平均 值 。 这 个 数字 并 不 总 是 以 相同 级 
别 的 数值 开始 和 结束 ， 并 且 取 决 于 网 络 架 构 使 用 的 损失 函数 。 比 如 说 ， 使 用 MSE 与 使 
用 负 对 数 似 然 损 失 函 数 相 比 ， 会 得 到 不 同 的 进度 分 数 。 


这 里 有 个 最 简单 的 方法 来 理解 这 个 数字 :“ 低 为 好 ， 高 为 坏 ”， 通 常 希 望 它 随 着 时 间 下 降 。 
若 要 打开 调试 输出 ， 请 将 以 下 代码 添加 到 示例 中 : 


myNetwork.setListeners(new ScoreIlterationListener(1)); 











表 6-5 总 结 了 每 个 损失 函数 的 使 用 场景 。 
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表 6-5: 损失 函数 及 其 使 用 场景 总 结 





















































损失 函数 使 用 场景 属性 

重建 焙 RBM、 自 动 编码 器 用 于 特征 工程 
平方 损失 输出 层 回归 

交叉 人 输出 层 二 元 分 类 

多 类 别 交 又 信 输出 层 分 类 

均 方 根 误差 3 动 编码 器 、RBM、 输 出 层 。 特征 工程 、 回 归 
hinge 损失 输出 层 分 类 

人 负 对 数 似 然 输出 层 分 类 











交叉 精 、 逻 辑 损失 与 负 对 数 似 然 

文献 和 示例 中 可 能 以 类 似 的 方式 使 用 这 些 损失 函数 。 如 第 2 章 所 述 ， 交 又 信 
起 源 于 信息 论 ， 而 负 对 数 似 然 分 类 起 源 于 统计 建 模 。 这 些 方 法 在 数学 上 相 
同 ， 所 以 尽管 无 须 在 意 使 用 的 是 哪个 ， 但 它们 往往 会 令 人 费解 。 














6.8 理解 学 习 率 
神经 网 络 中 的 学 习 率 超 参数 是 对 神经 网 络 调 优 时 要 设置 的 最 重要 的 超 参 数 之 一 (或 者 去 掉 
“之 一 ”) 。 它 对 训练 的 稳定 性 和 时 间 效 率 都 有 很 大 的 影响 。 


从 图 6-1 可 以 看 出 ， 如 果 学 习 率 过 高 〈 左 图 )， 网 络 训练 可 能 不 稳定 〈 或 完全 发 散 )。 如 果 
学 习 率 过 低 〈 右 图 ) ， 可 能 比 正常 训练 耗 时 更 多 。 

















过 高 的 学 习 率 ; 不 稳定 过 低 的 学 习 率 : 效率 低 





地 | 
本 ES 
水 水 
参数 值 参数 值 











6-1: SGD 与 学 习 率 


理想 情况 下 ， 在 训练 开始 时 使 用 一 个 高 的 学 习 率 ， 接 近 训 练 过 程 的 收敛 时 ， 让 它 随 时 间 而 
下 降 。 如 果 正 在 使 用 动量 法 ， 那 么 随 着 学 习 率 的 下 降 ， 在 训练 时 慢 慢 增加 动量 值 ( 稍 后 将 
介绍 ) 是 有 利 的 。 
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动量 和 某 些 更 新 器 
如 果 使 用 的 是 某 些 更 新 器 ， 如 Adam 或 RMSProp ， 那 么 动量 不 会 被 使 用 。 


增 大 学 习 率 设置 值 
增 大 学 习 率 的 初始 设置 值 并 不 总 是 有 用 的 ， 因 为 尽管 最 初 可 能 学 习 得 很 好 ， 
但 从 长 远 来 看 ， 算 法 反而 学 习 得 更 慢 。 

















理想 情况 下 ， 使 用 革 种 非 静态 学 习 率 方案 ， 其 中 学 习 率 可 以 设置 在 多 层 ， 

。 全 局 

。 每 导 

。 每 个 神经 元 

。 每 个 参数 (其 中 每 个 神经 元 有 更 多 的 参数 、 偏 置 等 ) 

学 习 率 应 该 只 在 学 习 接近 尾声 时 才 开始 下 降 。 安 排 学 习 率 随时 间 衰减 很 必要 ， 这 就 好 比 可 
以 利用 额外 计算 时 间 使 训练 时 间 更 长 ， 以 降低 衰减 率 一 样 。 这 个 衰减 率 应 适应 每 一 个 参 
数 ， 而 不 是 过 于 激进 、 过 快 地 妨碍 学 习 。 


6.8.1 使 用 参数 更 新 比率 


设置 学 习 率 的 一 种 简单 高 效 的 方法 是 使 用 参数 更 新 比率 (或 者 具体 说 来 就 是 它 的 平均 更 新 
幅度 )。 回 想 一 下 ， 更 新 是 将 更 新 器 (RMSProp、 动 量 等 ， 以 及 学 习 率 ) 应 用 于 梯度 后 的 
值 ， 即 学 习 方程 应 用 了 更 新 二 后 变 为 0 一 0 - wn。 如 果 令 更 新 向 量 为 w (长 度 为 N， 与 参数 
向 量 长 度 相同 )、 参 数 向 量 为 6， 那么 参数 更 新 比率 的 计算 如 下 所 示 : 























1 wx 

N= | | 
参数 更 新 比率 = 人 一 一 一 

Ne 19.| 





这 个 比率 测量 了 相对 于 当前 的 参数 值 ， 参 数 的 值 改变 了 多 少 。 可 以 在 DL4J 的 UI 中 的 两 
个 地 方 找到 这 个 比率 : Overview 页 面 (左下 方 ) 和 Model 页 面 (在 选择 层 的 顶点 之 后 
的 第 一 个 图 )。 请 注意 ， 在 DL4J 的 调 优 UI 中， 这 个 比率 以 10 为 底 的 对 数值 表示 ， 如 
图 6-2 所 示 。 























Update:Parameter Ratios (Mean Magnitudes): log1o Updates Param Ratio 


mb 
于 W 





100 200 300 400 500 600 700 800 900 


log io Ratio -8.21 , Iteration : 893 











图 6-2: DL4J 的 调 优 UI 显示 了 参数 更 新 比率 图 


当 使 用 DL4J 时 ， 为 了 查看 图 6-2 中 所 示 的 训练 进度 ， 在 网 络 开 始 训练 之 后 ， 在 浏览 器 中 
访问 http://localhost:9000/。 

利用 比率 设置 学 习 率 

为 了 设置 学 习 率 ， 需 要 一 个 大 约 0.001 的 参数 更 新 比率 ， 这 与 DL4 的 训练 
UI 中 的 log 比率 等 于 -3 的 值 相对 应 。 














例如 对 数 比 率 -4 ( 即 0.0001) 意味 着 应 该 提高 学 习 率 ， 对 数 比率 -2 ( 即 0.01) 意味 着 应 
该 降低 学 习 率 ”。 


6.8.2 ”关于 学 习 率 的 具体 建议 

学 习 率 设置 往往 从 较 大 的 值 开 始 ， 并 通过 衰减 机 制 随 时 间 下 降 。 如 果 学 习 率 初始 值 太 大 ， 
通常 会 导致 平均 训练 损失 增加 。 最 好 的 学 习 率 通常 接近 (两 倍 于 ) 不 会 导致 学 习 过 程 发 散 
的 最 大 学 习 率 。 

良好 的 初始 学 习 率 

理想 情况 下 ， 从 高 的 学 习 率 开始 ， 如 果 学 习 过 程 发 散 ， 就 将 这 个 速率 除 以 一 
个 因子 ， 然 后 尝试 ， 直 到 学 习 过 程 开始 收敛 。 

建议 从 这 几 个 学 习 率 开始 : [0.1, 0.01, 0.001]， 看 看 哪个 最 稳定 ， 其 中 0.001 
是 最 受 欢迎 的 学 习 率 初始 值 之 一 。 














注 3: 为 实现 这 个 目标 ， 还 可 以 使 用 其 他 度量 ， 例 如 世 2 范 数 的 比率 。 这 些 在 DL4J 的 训练 UI 中 不 可 用 ,但 


是 可 以 手动 计算 它们 。 


| 医 
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建议 按 以 下 顺序 尝试 学 习 率 方法 。 
(CD Adam: 
目前 推荐 使 用 的 默认 方法 。 
(2) Nesterov 动量 。 
(3) RMSProp: 
a. 使 用 平方 梯度 的 移动 平均 ; 
b. 当 学 习 率 变 得 单调 降低 时 没有 问题 ， 就 像 在 AdaGrad 中 一 样 。 





(4) AdaGrad 。 
DL4J 支持 的 其 他 选项 包括 : 
。 AdaDelta 


仍然 需要 观察 学 习 率 

如 果 学 习 率 设 定 得 太 高 ， 用 AdaGrad 训练 仍然 是 不 稳定 的 就 像 其 他 方法 一 
样 )。AdaGrad 不 能 提高 学 习 率 ， 实 际 上 使 用 AdaGrad 时 的 有 效 (每 个 参数 
的 ) 学 习 率 是 单调 下 降 的 。 

AdaGrad 确实 表现 得 像 是 每 个 权重 学 习 率 的 训 减 机 制 ， 然 而 AdaGrad 的 缺点 
是 它 单调 的 学 习 率 变化 机 制 通常 在 实践 中 表现 得 过 于 激进 ， 并 且 过 早 地 停止 
学 习 。 


DL4J 的 库 内 置 了 AdaGrad 的 实现 ， 因 此 用 户 可 以 不 用 太 操 心 手动 调整 学 习 率 。 



































在 DL4J 中 使 用 动量 法 或 Nesterov 动量 法 
动量 法 能 够 避免 学 习 过 程 陷入 局 部 极 小 值 ， 并 能 为 优化 过 程 找到 更 好 的 解决 
方案 。 
动量 值 通常 都 在 0.9 左右 。 关 于 这 个 设置 的 其 他 常用 值 有 : [0.5, 0.9, 0.95, 0.99]。 
动量 的 典型 初始 设 定 值 是 0.5， 经 历 多 轮训 练 后 变 为 0.9 左右。 除了 设 
置 .momentum(0.5). 之 外 ， 设 置 .updater(Updater .NESTEROVS) 也 是 至 关 重 要 
的 。 如 果 没 有 这 两 个 设置 ， 动 量 就 不 会 被 启用 。 


当 隐藏 单 元 的 输入 (其 中 有 许多 连接 进入 ) 非常 大 时 ， 需 要 设置 较 小 的 更 新 ， 因 为 同一 方 
向 上 很 多 小 的 改变 可 能 对 梯度 符号 产生 意 想不到 的 影响 。 在 这 种 情况 下 ， 学 习 率 应 该 更 低 。 
偏 置 的 更 新 可 以 较 大 ， 目 前 还 未 看 到 不 利 影响 。 这 些 机 制 使 学 习 率 的 调整 成 为 一 个 挑战 。 


这 里 还 有 一 些 其 他 的 事情 要 牢记 。 


学 习 率 是 特定 于 网 络 的: 在 一 个 网 络 中 工作 正常 的 值 可 能 在 另 一 个 网 络 中 不 起 作用 。 
请 记 住 ， 参 数 更 新 启发 式 方法 仅仅 是 一 个 指南 ， 它 并 不 总 是 有 效 的 ， 但 它 通常 是 一 个 好 
的 起 点 。 

所 需 的 学 习 率 (有 了 时 尤其 ) 取决 于 其 他 超 参数 。 例 如 不 同 的 更 新 器 (动量 法 、RMSProp、 
AdaGrad 等 ) 可 能 需要 不 同 的 学 习 率 。 改 变 权重 初始 化 或 层 的 数量 /类 型 /大 小 也 可 能 
需要 重新 调整 学 习 率 。 因 此 ， 对 网 络 进行 重大 调整 之 后 ， 应 该 经 常 检查 学 习 率 。 
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。 在 阅读 更 新 比率 图 表 之 前 ， 给 网 络 一 些 时 间 来 稳定 下 来 一 一 也许 训练 开始 后 要 迭代 几 十 
次 到 几 百 次 〈 参 数 更 新 )。 训 练 开 始 后 的 最 初 几 次 更 新 通常 比较 大 。 
偏 置 更 新 率 的 初始 值 比 0.001 大 很 多 是 正常 的 ， 也 是 符合 预期 的 ， 毕 竞 偏 置 通常 被 初始 
化 为 0.0。 因 此 ， 初 始 更 新 率 将 会 很 大 ， 并 会 随 着 时 间 推 移 减 小 幅度 。 
在 某 些 情况 下 ， 为 了 获得 正确 的 比率 ， 有 必要 为 不 同 的 层 设置 不 同 的 学 习 率 。 然 而 这 也 
可 能 引发 其 他 问题 ， 例 如 梯度 消失 / 梯度 爆炸 、 较 差 的 权重 初始 值 或 数据 规范 化 问题 。 
Adam 和 RMSProp 更 新 器 可 能 有 助 于 缓和 这 些 问题 ， 因 为 它们 在 梯度 上 具有 规范 化 / 缩 
放 效 应 。 


6.9 稀 朴 性 对 学 习 的 影响 


稀 下 超 参数 是 深度 学 习 中 常用 的 参数 。 稀 玻 性 鼓励 隐藏 单元 稀疏 〈 或 接近 零 )。 稀 踢 表示 
被 视 作 好 的 ， 因 为 它们 鼓励 底层 因子 的 分 解 。 

稀 政 性 有 助 于 在 权重 值 很 大 以 及 有 问题 的 时 候 ， 训 练 不 会 停止 。 稀 政 性 有 时 与 决定 网 络 规 
模 的 其 他 超 参数 相互 作用 。 随 着 隐藏 节点 数量 的 增加 ， 稀 玻 因 子 应 该 增加 。 稀 玻 性 与 网 络 
大 小 的 相互 作用 也 会 受到 网 络 架构 所 使 用 的 激活 函数 类 型 的 影响 。 

为 了 理解 稀 下 性 设置 如 何 工作 ， 请 查看 隐藏 单元 平均 活动 的 直方 图 。 由 此 可 以 设置 稀 跨 
性 ， 使 隐藏 单元 的 平均 概率 在 目标 附近 。 如 有 果 概 率 紧 密 聚 集 在 目标 值 周 围 ， 需 要 减少 稀 玻 
设置 ， 这 样 它 对 学 习 过 程 主要 目标 的 影响 较 小 。 




































































稀 朴 性 与 某 些 网 络 架 构 
对 于 DL4J 中 的 DenseLayer 和 LSTM 层 ， 稀 玻 性 不 可 用 。 











稀疏 目标 值 
为 了 有 质量 地 学 习 ， 将 稀疏 目标 值 设置 在 0.01 和 0.1” 之 间 。 








6.10 优化 方法 的 应 用 
最 流行 的 优化 深度 学 习 网 络 的 方法 是 SGD ， 它 相对 容易 实现 ， 但 在 调 优 和 并 行 化 上 有 挑 
战 性 。 
一 些 研究 人 员 认 为 ， 给 神经 网 络 增加 额外 的 参数 并 不 能 减少 大 数据 集 上 的 欠 拟 合 和 容量 的 
浪费 。 他 们 指出 这 是 SGD 的 原因 ， 并 建议 使 用 二 阶 方法 缓解 这 些 问 题 ， 这 些 方法 包括 : 
。 Broyden-Fletcher-Goldfarb-Shanno (BFG) 一 一 有 限 记 忆 BFGS (L-BFGS ) 

共 斩 梯 度 (CG) 


。 Hessian-free 


表 6-6 列 出 了 对 于 每 个 网 络 架构 ， 初 始 优化 方法 最 佳 实践 的 快速 参考 表 。 
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表 6-6: 不 同 网 络 架 构 的 优化 算法 





网 络 常用 的 训练 方法 及 说 明 
DBN SGD 

CNN SGD (+Dropout) 

RNN SGD, Hessian-free 

















需要 注意 训练 数据 集 大 小 对 优化 方法 选择 的 影响 。 当 处 到 
当 处 到 
试 二 阶 方法 ， 并 将 小 批量 大 小 设置 为 小 于 整个 数据 集 的 


优化 方法 ， 并 将 批量 大 小 设置 为 整个 数据 集 的 大 小 。 
有 小 批量 设置 的 SGD。 你 也 可 以 堂 











E 较 小 的 数据 集 时 ， 建 议 使 用 二 阶 


E 较 大 的 数据 集 时 ， 建 议 使 用 带 

















































































































大 小 。 
表 6-7 给 出 了 每 种 方法 的 比较 。 
表 6-7: 优化 方法 比较 
方法 一 阶 信息 ”二 阶 信息 ”优点 缺点 
SGD 梯度 无 收 伍 速 度 快 ， 每 个 参数 不 够 稳健 
的 更 新 成 本 最 低 
L-BFGS 梯度 梯度 估计 能 够 找到 更 好 的 局 部 极 能 够 比 SGD 训练 得 更 好 ， 但 每 个 参 
的 曲率 信息 小 值 数 更 新 成 本 更 高 ， 内 存 占用 更 高 
CG 梯度 梯度 估计 一 每 个 参数 更 新 成 本 更 高 ， 内 存 占用 
的 曲率 信息 更 高 
SGD Hessian-free 无 曲率 9 动 推导 出 步 长 ， 使 用 不 能 泛 化 到 所 有 架构 ， 每 个 参数 更 
共 轿 梯度 找到 下 一 步 ”新 成 本 更 高 ， 内 存 占 用 更 高 














尽管 提供 了 表 6-7 用 于 快速 比较 ， 但 是 大 部 分 情况 下 
后 将 深入 探讨 它 的 具体 最 佳 实践 。 


SGD 最 佳 实 践 


你 应 该 关注 如 何 从 SGD 开 











始 ， 因 此 稍 


SGD 与 动量 和 精心 设计 的 随机 权重 初始 化 方案 工作 良好 。 它 已 被 证 明 在 训练 DBN 和 RNN 





上 非常 高 效 ， 达 到 了 与 Hessian-free 优化 方法 相同 的 水 准 。 





题 上 很 难 找 到 比 精心 调 优 过 的 SGD 方法 更 好 的 方法 。 
下 面 是 在 深度 网 络 中 使 用 SGD 训练 的 快速 入 门 总 结 。 


在 输入 训练 集 上 使 用 好 的 数据 混 洗 方法 。 
观察 每 次 迭代 中 的 误差 百分比 和 验证 误差 率 : 
- 训练 误差 变 小 ; 

一 如 果 验 证 误差 变 平 ， 就 可 以 提前 停止 训练 。 
使 用 训练 数据 的 较 小 子 集 来 尝 
与 动量 、AdaGrad 和 RMSProp 结合 使 用 。 
适当 设置 学 习 率 ， 太 高 或 太 低 都 不 好 。 
将 输入 数据 规范 化 ( 
































研究 人 员 发 现 ， 在 大 型 分 类 问 


试 调整 超 参数 (特别 是 用 于 调整 学 习 率 )。 


不 只 限于 SGD， 但 值得 反复 提醒 ， 因 为 它 经 常 被 忘记 ) 。 





对 于 实 值 输出 的 较 小 问题 (函数 逼近 、 控 制 问题 等 )，CG 方法 的 表现 很 好 。 使 用 二 阶 方法 
时 的 小 批量 大 小 (10 000) 通常 比 使 用 SGD 方法 时 更 大 。 
将 SGD 作为 最 常用 的 起 点 


在 实践 中 ， 比 起 二 阶 方法 ， 人 们 更 多 地 使 用 SGD (结合 使 用 动量 或 AdaGrad 
或 RMSProp 等 )。 











6.11 使 用 并 行 化 和 GPU 更 快 地 进行 训练 


随 着 机 器 学 习 应 用 目标 变 得 更 加 雄心 勃勃 ， 需 要 更 大 的 模型 来 配合 它 。 这 意味 着 需要 训练 
更 多 的 参数 和 训练 时 间 。 训 练 更 大 的 数据 集 可 以 获得 更 完整 的 模型 视图 ， 但 是 当 数 据 达 到 
一 定 规模 后 ， 会 看 到 IO 开销 磁 到 了 天 花 板 (参考 附录 C 中 Jeff Dean 的 12 个 数字 )。 在 
单机 训练 的 情况 下 ， 受 限于 现代 CPU 的 原始 时 钟 频率 ， 计 算 机 架构 已 经 达到 硬件 能 

的 极限 ， 人 们 将 多 个 CPU 内 核 的 计算 能 力 组 合 在 一 起 ， 以 与 之 前 不 同 的 并 行 处 理 的 方式 ， 
获得 了 新 的 增长 。 在 现代 机 器 学 习 活 动 中 ， 很 快 就 达到 了 顺序 学 习 的 极限 。 单 机 的 存储 和 
网 络 带宽 已 经 跟 不 上 数据 量 的 增加 ， 我 们 需要 考虑 能 够 以 分 布 式 方式 执行 数据 分 析 算 法 的 
步骤 。 
































访问 磁盘 上 的 大 量 数据 

访问 硬盘 驱动 器 是 耗 时 的 操作 ， 会 导致 计算 迟延 。 例 如 ， 假 设 一 个 容量 为 
2TB 的 硬盘 驱动 器 ， 磁 盘 读 取 速 度 为 100MB/s， 那 么 读 取 全 部 内 容 需 要 耗费 
大 约 6 个 小 时 。 有 关 计 算 机 架构 不 同 迟 延 的 更 多 信息 ， 请 参考 附录 C 中 Jeff 
Dean 的 12 个 数字 。 


6.11.1 在线 学 习 与 并 行 迭代 算法 

从 批量 学 习 算 法 到 在 线 学 习 算 法 的 转变 至 今 已 有 十 多 年 了 ， 转 变 后 模型 能 够 处 理 不 断 增加 
的 数据 集 大 小 。 然 而 当 有 多 个 数据 驱动 器 时 ， 这 个 任务 在 计算 上 变 得 不 切实 际 : IO 开销 
导致 无 法 通过 SGD 处 理 所 有 数据 。 在 大 数据 的 世界 中 ， 需 要 尽量 少 地 移动 数据 ， 所 以 我 
们 最 终 寻找 并 行 执行 程序 的 方法 。 

在 最 近 的 工作 中 ， 传 统 的 串 行 学 习 过 程 已 被 重新 设计 用 于 并 行 计算 ， 即 通过 让 一 个 内 核 执 
行 本 地 计算 ， 然 后 将 多 个 内 核 的 工作 集中 组 合 以 产生 全 局 结果 。 随 着 数据 集 超过 多 个 驱动 
器 的 容量 ， 我 们 需要 重新 考虑 设计 存储 和 处 理 系 统 。 这 是 21 世纪 初 谷歌 的 MapReduce 和 
谷歌 文件 系统 设计 的 推动 力 (以 及 之 后 Doug Cutting 和 Michael Cafarella 继续 在 Hadoop 上 
完成 的 工作 ) 。 

可 以 用 不 同 的 方式 并 行 化 计算 机 程序 ， 具体 说 来 就 是 学 习 算 法 。 任 何 并 行程 序 都 由 同时 执 
行 的 进程 组 成 ,并行 性 的 不 同形 式 与 如 何 将 进程 分 解 成 可 以 在 不 同位 置 并 行 运行 的 部 分 进 
程 有 关 。 实 现 它 的 两 个 主要 的 方法 是 任务 并 行 性 和 数据 并 行 性 。 
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1. 任务 并 行 性 

利用 任务 并 行 性 〈 也 叫 函数 并 行 性 ) ， 将 要 完成 的 工作 划分 为 儿 个 独立 的 任务 ， 然 后 将 这 些 任 
务 调度 在 不 同 的 处 理 单元 上 执行 。 处 理 单元 可 以 是 本 地 线程 ， 也 可 以 是 不 同 物理 机 器 的 内 核 。 
2. 数据 并 行 性 

数据 并 行 性 的 意思 是 划分 工作 ， 将 同样 的 函数 应 用 于 数据 集 的 不 同 部 分 ， 然 后 执行 工作 的 
任务 在 不 同 的 线程 (本 地 或 分 布 式 集群 的 远程 机 器 中 ) 上 被 调度 ， 这 使 得 数据 并 行 性 成 为 
任务 并 行 性 的 子 集 。 通 过 数据 并 行 性 ， 我 们 在 并 行 计算 环境 中 可 以 跨 多 个 处 理 单元 扩展 计 
算 。 这 些 单元 可 以 是 同一 内 核 上 的 线程 、 不 同 内 核 上 的 线程 ， 或 是 集群 中 完全 不 同 的 物理 
机 器 的 内 核 。 

当 并 行 化 执行 SGD 之 类 的 和 迭代 类 算法 时 ， 可 以 使 用 参数 平均 技术 来 高 效 地 利用 本 地 线程 
并 行 性 。 然 而 随 着 数据 大 小 的 增加 ， 把 数据 复制 到 并 行 处 理 单元 就 会 成 为 一 个 问题 。 为 了 
解决 这 个 问题 ， 第 一 个 思路 就 是 迁移 到 一 个 能 够 处 理 大 数据 的 系统 ， 比 如 Hadoop。 












































大 数据 
在 企业 软件 的 市 场 营销 中 ， 经 常 能 听 到 “大 数据 ”这 个 词 。 这 个 术语 已 经 变 得 无 处 不 
在 ， 甚 至 被 总 统 提 及 ， 并 且 经 常 在 《华尔街 日 报 》 中 被 谈论 。 非 常 有 趣 的 是 ， 尽 管 它 
被 如 此 广泛 的 使 用 ， 大 多 数 人 依然 很 难 定 义 这 个 词 。 我 们 基于 实践 经 验 这 样 定 义 大 数 
据 : 数据 在 存储 的 地 方 被 处 理 ， 我 们 将 计算 移动 到 数据 。 MapReduce 就 是 围绕 这 一 概 
念 构建 的 。 许 多 公司 和 工具 声称 要 处 理 大 数据 ， 但 简单 说 来 ， 如 果 在 处 理 数 据 之 前 移 
动 数据 ， 那 么 处 理 的 就 不 是 大 数据 。 











扫描 一 PB 数据 需要 多 久 ? 

大 数据 的 一 个 限制 是 在 达到 某 个 点 之 后 数据 的 移动 变 得 不 可 能 完成 。 例 如 计 
算 以 单个 普通 硬盘 驱动 器 的 速度 (大约 40MB/s) 线性 扫描 一 PB 数据 需要 多 
久 。 如 果 这 种 基本 的 扫描 /复制 操作 以 40MB/s 的 速度 在 单个 处 理 单元 上 进 
行 ， 将 需要 大 约 310 天 。 


Apache Hadoop 是 存储 和 管理 大 量 数据 ，( 如 Web 日 志 或 传感器 读数 ) 的 好 地 方 ， 因 为 在 世 
界 各 地 的 企业 中 已 经 证 明了 其 对 PB 级 数据 的 处 理 能 力 。 最 早 包含 在 Hadoop 发 行 版 中 的 传 
统 并 行 框 架 是 MapReduce 框架 。MapReduce 并 行 化 利用 了 存储 大 量 数据 的 位 置 ， 它 将 计算 
(或 任务 ) 推送 到 存储 数据 块 的 本 地 主机 ， 并 在 那里 本 地 执行 以 最 大 化 物理 存储 上 的 吞吐 量 。 






















































































MapReduce 


MapReduce 是 受到 map 和 Teduce 函数 启发 的 传统 批 处 理 类 并 行 化 算法 ， 通 常用 于 函数 式 
编程 。 它 处 理 来 自 map 任务 的 键 值 对 〈 在 具有 数据 块 的 主机 上 本 地 执行 ， 以 减少 IO 和 
网 络 开销 )， 将 数据 混 洗 到 分 区 ， 以 便 每 个 reducer 在 归 约 阶段 操作 。 诸 如 Hadoop 处 
理 机 器 故障 之 类 的 实现 对 程序 员 来 说 是 透明 的 ， 而 传统 上 这 是 并 行 编程 的 一 部 分 。 然 
而 由 于 数据 集 之 间 数 据 遍 历 的 时 间 成 本 问题 ，MapReduce 不 适合 选 代 类 算法 。 














和 迭代 算法 与 MapReduce 问题 
如 果 要 遍历 数据 集 100 次 ， 并 且 MapReduce 调度 成 本 是 每 次 遍历 30 秒 ， 那 
么 这 会 带 来 3000 秒 (100 x30) 的 开销 。 这 还 仅仅 是 调度 开销 时 间 的 50 分 
钟 ， 最 终 将 影响 许多 训练 过 程 。 这 种 开销 使 MapReduce 对 于 并 行 迭 代 算 法 来 
说 不 是 一 个 良好 的 并 行 框架 。 











近年 来 ， 并 行 优化 方法 作为 机 器 学 习 算 法 的 一 种 扩展 方式 越 来 越 受 到 人 们 的 关注 。 从 
MapReduce 方式 的 并 行 到 更 多 迭代 并 行 方法 ， 各 种 形式 的 并 行 在 加 速 。SGD 一 直 是 许多 研 
究 论 文 的 重点 ， 这 些 论文 在 没有 使 用 MapReduce 框架 的 情况 下 已 经 并 行 化 了 SGD。 开 源 
框架 (Vowpal Wabbit 和 Apache Spark) 在 迭代 方法 的 并 行 化 方面 也 取得 了 进展 ， 参 数 平均 
是 迭代 方法 实现 的 关键 。 


6.11.2 ”DL4J 中 的 SGD 并 行 


谷歌 发 布 的 另 一 篇 论文 描述 了 如 并 行 SGD 这 样 的 用 于 迭代 类 算法 的 并 行 系统 。 这 个 系统 被 
称 为 Downpour SGD ， 它 利用 了 某 些 特性 ， 如 AdaGrad、 大 量 模型 副本 以 及 Sandblaster (并 
行 L-BFGS)。Downpour (及 其 组 件 ) 启发 了 DL4J 并 行 化 架构 ， 如 图 6-3 所 示 。 














































6-3: DL4J 的 参数 平均 并 行 化 策略 


启发 了 DL4J 并 行 化 策略 的 主要 研究 论文 之 一 是 Jeff Dean 和 他 在 谷歌 的 团队 介绍 使 用 
SandBlaster 工具 的 论文 。 
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Jeff Dean 


Jeff Dean 是 谷歌 的 一 位 杰出 的 研究 工程 师 ， 他 曾 参与 过 谷歌 一 些 核心 系统 的 开发 。Jeff 
于 1999 年 加 入 谷歌 ， 并 在 谷歌 知识 集团 担任 高 级 研究 员 。 正 如 刚才 提 到 的 ，Je 任 领导 
了 DistBelief 和 SandBlaster (ICML 2012) 的 设计 和 实现 。DistBelief 是 谷歌 训练 深度 
神经 网 络 的 大 规模 分 布 式 系统 ， 已 用 于 图 像 识 别 、 语 音 识 别 、 自 然 语 言 处 理 (NLP) 
和 其 他 机 器 学 习 任 务 。 以 下 是 Je 任 领导 的 其 他 有 影响 力 的 机 器 学 习 和 分 布 式 系统 项 目 。 
。 5 代 仆 行 、 索 引 和 查询 服务 系统 。 

。 谷歌 为 内 容 创 收 设计 的 AdSense 平台 的 早期 开发 。 

。 MapReduce 的 设计 与 实现 。 

。 BigTable 的 设计 与 实现 。 

。 Spanner 的 设计 与 实现 。 

鲜 为 人 知 的 事实 : 


Jeff Dean 直接 用 二 进 制 写 程序 ， 然 后 他 编写 源 代码 作为 文档 提供 给 其 他 开发 者 。 








DL4J 支持 许多 可 用 的 运行 时 〈 例 如 亚马逊 云 服 务 、 多 线程 、Hadoop 上 的 Spark-YARN)， 
但 是 它们 都 使 用 参数 平均 策略 〈 就 像 现在 一 样 )。 正 如 前 面 提 到 的 ， 这 种 技术 在 并 行 迭 代 
研究 文献 中 很 常见 ， 而 且 我 们 围绕 移植 到 每 个 运行 时 的 一 组 通用 模式 来 设计 。 

参数 服务 器 

参数 服务 器 的 设计 正在 被 添加 到 项 目 中 ,但 是 目前 参数 平均 依然 是 解决 许多 
并 行 深 度 学 习 建 模 问 题 有 价值 的 方法 。 


























并 行 SGD 执 行 

并 行 SGD 执行 模式 的 高 级 别 执行 流程 如 下 : 每 个 worker 得 到 一 个 总 数据 集 的 分 片 ， 并 在 
分 到 的 记录 上 运行 自己 的 小 批量 训练 算法 。 在 每 个 小 批量 的 处 理 中 ，worker 将 其 参数 向 量 
发 送 回 master 市 点 ， 然 后 在 处 理 流 的 超级 步骤 阶段 ， 执 行 参数 平均 。 


控制 参数 平均 
在 DL4J 中 ， 参 数 平均 的 频率 是 可 配置 的 ， 但 对 “每 个 小 批量 ”进行 参数 平 
均 是 低 效 的 。 在 实践 中 ， 设 置 为 “每 5 到 20 个 小 批量 ”执行 一 次 表现 很 好 。 




















然后 ，master 节点 将 这 个 新 的 全 局 参数 向 量 发 送 回 worker， 以 便 它 们 可 以 在 数据 分 片 内 执 
行 下 一 个 小 批量 处 理 。 这 个 过 程 一 直 持 续 到 完成 对 数据 集中 所 有 记录 的 遍历 或 者 完成 对 数 
据 集 的 入 次 遍历 (更 多 相关 信息 ， 请 参阅 介绍 Spark 的 第 9 章 )。 

我 们 用 一 个 并 行 训 练 的 例子 来 说 明 这 一 点 。 假 设 有 10 个 并 行 的 worker， 每 个 worker 有 
100 条 记录 的 分 片 (为 简单 起 见 )。 然 后 每 个 worker 将 分 片 进一步 细 分 成 含 10 条 记录 的 
小 批量 。worker (并 行 地 ) 将 在 每 个 小 批量 上 执行 学 习 过 程 ， 直 到 完成 整个 100 条 记录 的 
训练 ， 或 者 说 完成 它们 分 到 的 整个 数据 集 的 “分 片 ”的 训练 。 并 行 化 带 来 的 好 处 是 : 尽管 
































worker 学 习 得 相对 缓慢 ， 但 使 得 整体 的 训练 速度 大 大 加 快 。 各 种 文献 和 开源 实现 中 的 实验 
结果 显示 ， 随 着 机 器 数量 的 增加 ， 速 度 的 改进 近似 于 线性 增长 。 


在 实践 中 ， 并 行 训练 和 串 行 训 练 得 出 的 训练 效果 可 能 不 同 。 


在 处 理 并 行 训练 时 ， 我 们 关注 的 两 个 主要 的 超 参数 是 小 批量 大 小 和 正则 化 。 需 要 更 细致 地 
考虑 这 两 个 并 行 训练 的 超 参 数 ， 因 为 它们 的 行为 和 在 串 行 训练 中 不 同 。 
口 小 批量 
举 一 个 并 行 训练 的 例子 : 当 要 处 理 的 小 批量 过 大 ， 小 批量 中 会 出 现 数 据 集 的 离 群 值 ， 这 
种 情况 会 造成 训练 收敛 周期 变 长 ， 因 为 学 习 过 程 在 较 大 的 小 批量 中 更 难 从 高 群 值 中 获得 
信息 。 
口 正则 化 
另 一 个 例子 是 求解 具有 更 多 方差 (小 的 正则 化 常数 ) 的 问题 可 以 从 并 行 化 中 得 到 更 多 模 
型 。 与 串 行 方式 相 比 ， 使 用 参数 平均 训练 的 主要 区 别 在 于 减少 了 IO 开销 以 及 利用 数据 
局 部 性 的 能 力 (在 将 计算 worker 移动 到 数据 块 主机 位 置 的 实现 中 )。 另 一 个 副作用 是 参 
数 平均 表现 得 像 是 参数 向 量 的 正则 化 函数 。 



































6.11.3 GPU 


参数 平均 并 不 是 加 速 迭代 类 算法 的 唯一 方法 。 接 下 来 介绍 一 个 基于 使 用 GPU 的 方法 ， 它 
可 以 在 其 专用 硬件 上 使 用 向 量化 的 数学 实现 。 如 今 市 面 上 桌面 PC 显卡 的 最 大 内 存 带 宽 通 
常 比 现代 CPU 高 出 数 倍 。 





现代 GPU 的 CUDA 内 核 超 过 1000 个 。 





GPU 的 一 个 有 趣 的 特性 是 ， 它 们 可 以 与 成 千 上 万 的 线程 同时 工作 ， 并 且 能 够 以 很 少 的 开销 
调度 内 核 上 的 线性 代数 计算 。 这 类 细 粒 度 的 并 行 性 使 得 GPU 成 为 加 速 机 器 学 习 中 大 规模 
线性 代数 计算 的 一 个 有 吸引 力 的 候选 。 

我 们 希望 以 允许 更 大 并 行 性 的 方式 执行 内 存 访问 。GPU 提供 了 这 样 的 一 种 方式 ， 合 并 内 存 
访问 ， 并 且 硬 件 可 以 在 有 效 访问 速度 比 普 通 CPU 和 RAM 场景 快 几 倍 的 情况 下 并 行 执 行内 
存 访问 ， 这 使 得 CPU 的 RAM 和 GPU 的 RAM 之 间 的 数据 传输 成 为 主要 瓶颈 。 在 大 多 数 
情况 下 ， 这 种 传输 时 间 其 至 支配 着 GPU 上 的 大 型 矩阵 x 矩阵 计算 。( 为 了 对 这 个 瓶颈 有 
更 多 认识 ， 来 看 一 个 例子 : 在 1000 x 1000 的 矩阵 乘法 中 ， 和 矩阵 运算 只 占用 0.5% 的 时 间 。) 
如 果 一 次 将 更 多 的 数据 传送 到 RAM 中 ， 并 且 以 更 大 的 批量 执行 多 个 操作 ， 那 么 可 以 从 硬 
件 和 GPU 中 获得 更 高 的 效率 。 


可 以 在 附录 C 中 看 到 ， 当 访问 硬件 时 ， 批 量 执行 内 存 操 作 。 在 将 数据 高 效 地 传输 到 GPU 
硬件 之 后 ， 就 可 以 在 这 一 次 性 地 发 送 到 GPU 的 训练 批 次 内 的 不 同 数据 块 之 上 ， 利 用 数 千 
个 额外 线程 来 操作 。 这 些 是 DL4J 中 线性 代数 架构 的 主要 驱动 因素 ， 我 们 通过 它们 使 用 
批 处 理 来 加 速 大 型 神经 网 络 中 大 量 参数 的 计算 。 为 了 进一步 加 速 这 些 计算 ， 我 们 创建 了 
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ND4J， 使 向 量化 计算 能 够 在 不 同系 统 和 不 同 GPU 的 线性 代数 运行 时 之 间 方 便 移植 。 


ND4J: 一 种 可 适应 的 执行 引擎 

我 们 从 一 开始 就 考虑 到 DL4J 在 CPU、GPU 或 并 行 框架 上 运行 的 需求 。 可 替 
换 的 ND4J 后 端的 灵活 性 相当 大 ， 提 供 了 执行 时 的 选择 。 

要 了 解 更 多 将 GPU 设置 为 ND4J 后 端的 信息 ， 请 参见 附录 E。 








IT 用 全 

6.12 ”控制 迭代 和 小 批量 的 大 小 
第 2 章 介绍 了 小 批量 的 概念 。 实 践 表 明 ， 将 训练 输入 数据 集 分 成 小 批量 能 够 更 高 效 地 训练 
网 络 。 一 个 小 批量 往往 是 从 10 个 输入 向 量 到 整个 输入 数据 集 范 围 内 的 任何 数据 集 。 
这 种 方法 还 允许 以 向 量化 的 方式 执行 某 些 线性 代数 运算 (特别 是 矩阵 - 矩阵 乘法 ) 。 如 果 
有 GPU， 也 可 以 选择 将 向 量化 计算 发 送 给 GPU。 
下 面 是 几 个 关于 控制 训练 的 关键 术语 。 
口 轮 

一 轮训 练 指 整个 输入 数据 集 的 完全 传递 。 在 训练 收敛 之 前 ， 对 数据 集 进 行 多 轮训 练 。 
口 小 批量 大 小 

小 批量 大 小 是 一 次 性 传 给 学 习 算 法 的 记录 (或 向 量 ) 数量 。 与 之 相对 的 做 法 是 一 次 传递 

一 条 输入 记录 去 训练 。 
算法 学 习 模 型 所 耗费 时 间 的 曲线 通常 呈 U 形变 化 (批量 大 小 与 训练 速度 )。 这 意味 着 一 开 
始 随 着 批量 的 大 小 增加 ， 训 练 时 间 将 减少 ， 之 后 当 批量 大 小 超过 某 个 较 大 的 值 时 ， 训 练 时 
间 将 开始 增加 。 






























































随 着 小 批量 大 小 的 增加 ， 更 多 的 计算 意味 着 梯度 可 能 更 平滑 ， 但 计算 成 本 
更 高 。 








理想 情况 下 ， 每 个 小 批量 训练 集 应 该 包含 每 个 类 别 的 一 个 样本 ， 以 便 在 估计 整 个 训练 集 的 
梯度 时 减少 采样 误差 。 


调整 小 批量 大 小 
原则 上 (通过 适当 的 调 优 )， 神 经 网 络 可 以 用 任意 大 小 的 小 批量 去 学 习 。 但 是 在 实践 中 ， 
确定 小 批量 大 小 时 需要 考虑 以 下 因素 : 


内 存 需求 
。 计算 效率 
。 优化 效率 


前 面 的 章节 已 经 介绍 过 内 存 需求 了 ， 所 以 这 里 不 再 讨论 它们 。 





























至 于 计算 效率 ，DL4J (以 及 其 他 现代 深度 学 习 库 ) 在 数学 运算 ， 如 和 矩阵 乘法 向量 运 生 
(加 法 、 对 应 元 素 的 乘法 等 ) 的 层面 并 行 化 学 习 。 这 意味 着 过 小 的 小 批量 会 导致 硬件 利用 
率 不 佳 (特别 是 在 GPU 上 ) ， 而 过 大 的 小 批量 可 能 导致 效率 低下 一 一 同样 在 小 批量 的 所 有 
样本 上 平均 梯度 ， 这 意味 着 最 终 增加 的 更 多 梯度 的 计算 成 本 超过 了 带 来 的 好 处 。 

关于 性 能 (对 于 GPU 来 说 这 是 最 重要 的 )， 应 该 以 32 的 倍数 为 批量 大 小 ， 否 则 应 该 使 用 
16、8、4 或 2 的 倍数 (否则 会 因 其 他 需求 导致 变化 太 大 )。 这 样 做 的 原因 很 简单 :与 其 他 
大 小 相 比 ， 内 存 访问 和 硬件 设计 对 于 维 数 是 2 的 客 的 数组 ， 操 作 优化 得 更 好 。 























也 应 该 考虑 以 2 的 寡 的 数字 为 层 大 小 。 例 如 应 该 使 用 128 层 而 不 是 125 层 ， 
或 者 使 用 256 层 而 不 是 250 层 ， 以 此 类 推 。 























关于 优化 效率 ， 需 要 注意 的 是 ， 不 能 完全 独立 于 其 他 超 参数 ， 来 选择 小 批量 大 小 ， 例 如 学 
习 率 。 较 大 的 小 批量 意味 着 更 平滑 的 梯度 ( 即 更 准确 /一 致 的 梯度 )， 辅 之 以 适当 的 调 优 ， 
就 能 更 快 地 学 习 给 定数 量 的 参数 更 新 。 当 然 ， 它 带 来 的 不 足 是 每 个 参数 更 新 需要 更 长 的 时 
间 来 计算 。 使 用 更 大 的 小 批量 可 能 有 助 于 网 络 在 一 些 困 难 的 情况 下 学 习 ， 如 有 噪声 或 类 别 
不 平衡 的 数据 集 上 。 

那么 应 该 怎样 选择 小 批量 的 大 小 呢 ? 在 实践 中 ，32 至 256 常用 于 使 用 CPU 训练 的 情况 ， 
32 至 1024 常用 于 使 用 GPU 训练 的 情况 。 通 常 ， 这 个 范围 内 的 一 些 值 对 于 较 小 的 网 络 来 说 
已 经 足够 好 了 ， 不 过 你 也 许 应 该 使 用 较 大 的 值 来 测试 (其 中 训练 次 数 可 能 有 限制 )。 


然而 ， 内 存 需 求 最 终 会 限制 大 型 网 络 的 最 大 批量 的 大 小 。 











对 于 分 布 式 训 练 ， 在 共享 硬件 的 每 个 执行 器 上 使 用 较 小 的 小 批量 并 不 罕见 
(比如 在 Spark 上 为 每 台 机 器 使 用 多 个 执行 器 进行 训练 ) 。 





最 后 不 要 忘记 ， 当 小 批量 大 小 增加 时 ， 每 轮 的 参数 更 新 数量 减少 了 (一 轮 指 的 是 训练 数据 
的 一 次 完全 传递 )。 每 轮 的 参数 更 新 的 数量 只 是 训练 集中 样本 总 数 除 以 小 批量 的 大 小 。 
小 批量 大 小 与 轮 的 关系 


为 了 保持 相同 数量 的 参数 更 新 ， 如 果 小 批量 大 小 增加 一 倍 ， 那 么 轮 数 也 需要 
增加 一 倍 。 








6.13 如何 使 用 正则 化 


某 些 类 型 的 正则 化 有 助 于 降低 那些 变 得 过 大 过 快 的 参数 向 量 的 权重 〈 例 如 LI1 和 L2)。 在 
某 些 场景 或 机 器 学 习 教 材 中 ， 权 重 衰减 被 当 作 正则 化 。 其 他 类 型 的 正则 化 ， 如 Dropout 和 
DropConnect， 除 了 减少 大 的 权重 之 外 ， 还 使 用 其 他 方法 来 减轻 过 拟 合 。 通 常 在 训练 中 使 用 
正则 化 方法 ， 因 为 它 不 仅仅 可 以 防止 过 拟 合 。 
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正则 化 能 够 使 用 不 同 的 方法 来 防止 参数 值 变 得 太 大 ， 从 而 高 效 地 表示 模型 。 找 到 用 于 正则 
化 设置 的 正确 组 合 通常 通过 手动 调 优 完成 ， 但 也 可 以 通过 “随机 搜索 ”或 “网 格 搜索 ”来 
完成 。 稍 后 将 简要 介绍 每 种 正则 化 方法 及 它们 是 如 何 影响 整个 训练 过 程 的 。 


6.13.1 使 用 先 验 函数 正则 化 


应 用 先 验 函数 是 正则 化 参数 向 量 一 种 常用 的 机 器 学 习 技 术 。 权 重 衰减 通常 通过 正则 函数 如 
Ll 或 12 先 验 函数 来 执行 。 在 某 些 情况 下 ， 这 些 函 数 被 组 合 ， 这 对 深度 网 络 来 说 很 常见 。 
表 6-8 显示 了 如 何 根 据 正在 建 模 的 输入 数据 类 型 使 用 不 同 的 先 验 函数 。 


表 6-8: 使 用 先 验 函 数 的 场景 的 总 结 




















先 验 函数 名 使 用 场景 
L1 稀 玻 模型 
L2 密集 模型 


在 文献 中 ，L1 和 L2 正则 化 方法 可 同时 用 于 每 个 函数 的 单独 设置 。 对 于 使 用 早期 停止 的 情 

况 ， 不 会 使 用 L2 正则 化 ， 因 为 早期 停止 在 执行 与 L2 相同 的 机 制 时 更 高 效 。L1 正则 化 已 

被 证 明 是 用 作 特 征 选 择 的 有 用 形式 。 

在 实践 中 ，L2 正则 化 使 用 更 频繁 。 以 下 是 Ll 和 LL2 的 不 同 点 。 

。 L2 更 多 地 惩罚 大 的 权重 ， 但 不 会 将 小 的 权重 变 为 0。 

。 Ll 对 大 的 权重 惩罚 较 小 ， 但 会 导致 许多 权重 变 为 0 (或 非常 接近 0) ， 这 意味 着 得 到 的 
权重 向 量 可 能 是 稀疏 的 。 

可 以 将 Ll 和 1L2 结合 在 一 个 网 络 中 。 








在 实践 中 ， 除 了 显 式 的 特征 选择 之 外 ，L2 正则 化 L1 正则 化 表现 更 好 。 





稍 后 将 介绍 ， 所 使 用 的 数据 也 会 影响 建 模 的 结果 。 


6.13.2 ”最 大 范 数 正则 化 

在 这 种 形式 的 正则 化 中 ， 为 每 个 单独 的 隐藏 单元 设置 传人 权重 向 量 的 12 范 数 的 上 界 。 这 
与 惩罚 整个 权重 向 量 的 平方 长 度 形成 对 比 ， 就 像 通 常用 L2 范 数 所 做 的 那样 。 

使 用 基于 约束 而 非 惩 罚 策略 的 方法 ， 使 得 无 论 传 入 的 权重 更 新 有 多 大 ， 都 可 以 防止 权重 
过 大 。 

相 比 于 其 他 使 用 较 低 学 习 率 的 方法 ， 最 大 范 数 正则 化 从 高 的 学 习 率 开始 ， 再 加 上 学 习 率 喜 
减 策略 (例如 AdaGrad)， 使 得 我 们 能 够 更 完全 地 搜索 权重 空间 。 它 已 被 证 明 在 深度 神经 
网 络 中 能 够 很 好 地 与 SGD 协同 工作 ， 即 使 没有 Dropout。 














6.13.3 Dropout 


Dropout 是 一 种 强大 的 正则 化 方法 ， 可 以 在 许多 类 型 的 模型 中 使 用 。Dropout 是 在 模型 训练 
过 程 中 通过 从 网 络 中 移 除 单元 来 正则 化 的 ， 一 种 计算 上 成 本 不 高 的 方法 。Dropout 几乎 能 
够 在 各 种 神经 网 络 架构 上 工作 ， 并 能 够 很 好 地 与 SGD 协同 工作 。Dropout 的 工作 方式 是 暂 
时 将 一 个 单元 的 激活 值 设置 为 0.0。 对 于 输入 层 神经 元 ，Droponut 的 概率 被 设置 为 0.5 至 1.0 
之 间 (例如 保持 或 去 除 激 活 值 的 概率 )。 








有 时 根本 不 对 输入 使 用 Dropout， 特 别 是 对 于 含有 噪声 或 稀 疏 的 数据 集 。 





在 隐藏 层 中 ，Droponut 的 概率 是 0.5。 通 过 随机 省 略 神经 元 ， 可 以 防止 检测 器 之 间 的 协同 适 
应 ,这 有 助 于 从 留存 数据 中 得 到 泛 化 能 力 更 好 的 模型 。 





输出 层 和 Dropout 
在 输出 层 上 通常 不 使 用 Dropout。 























通常 除了 极端 的 设置 以 外 ， 几 乎 所 有 的 Dropout 设置 都 会 有 帮助 。 通 常 将 Dropout 设 
置 为 0.5， 并 且 实 践 证 明 它 在 许多 类 型 的 网 络 和 目标 上 工作 得 很 好 。 在 所 有 隐藏 层 中 设 
置 Dropout 的 效果 比 仅 在 一 个 隐藏 层 中 设置 的 效果 更 好 。 即 使 不 使 用 其 他 正则 化 技术 ， 
Dropout 也 会 使 隐藏 单元 的 激活 变 得 稀 玻 ， 从 而 得 出 稀 玻 表示 。 

可 以 在 DL4J 中 添加 以 下 代码 将 Dropout (以 概率 0.5) 应 用 到 网 络 配置 中 。 


.regularization(true).dropout(0.5). 














Dropout 概率 


在 DL4J 中 ，Dropout 概率 (使 用 dropout(double) 配置 选项 设置 ) 是 保持 
激活 的 概率 ， 即 dropout(0.7) 意味 着 有 70% 的 概率 激活 被 保留 ， 有 30% 
的 概率 被 设置 为 零 。 注 意 ， 在 DL4J 中 ，dropout(9.0) 表示 “禁用 此 层 的 
Dropout”( 因 为 保留 0% 概率 的 激活 没有 意义 )。 

根据 Srivastava 等 早期 的 Dropout 论文 ，Dropout 的 影响 并 非特 别 取决 于 
Dropout 概率 。 在 大 多 数 情况 下 ， 它 只 要 被 设置 为 0.5 就 能 很 好 地 工作 。 但 如 
果 一 个 网 络 (相对 于 训练 的 数据 量 ) 非常 大 ， 应 使 用 更 小 的 保持 激活 的 概率 
(这 相当 于 更 强 的 正则 化 )。 


更 多 关于 使 用 Dropout 的 说 明 。 


在 实践 中 Dropout 通常 与 其 他 正则 化 方法 相 结 合 ， 如 L2 正则 化 。 
作为 一 般 的 规则 ， 应 该 避免 在 网 络 的 第 一 层 使 用 Dropout (通过 在 该 层 设置 dropout(0.0) 
来 禁用 它 )， 这 将 避免 删除 输入 数据 集 的 重要 部 分 。 
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DL4J、Dropout 与 RNN 

对 于 RNN，Droponut 通常 只 应 用 于 进入 层 时 的 激活 ， 而 不 是 层 内 的 循环 激 
活 。 在 循环 激活 上 应 用 Dropout 会 使 学 习 时 间 依 赖 变 得 过 于 困难 。 当 应 用 于 
RNN 时 ，DL4J 仅 在 输入 激活 时 应 用 Dropout。 











Dropout 的 问题 

研究 发 现 当 训练 记录 的 数量 上 升 到 千 万 级 别 时 ，Dropout 并 不 那么 高 效 。 研 究 还 表明 ， 与 
不 启用 Dropout 的 相同 网 络 架 构 相 比 ， 启 用 Dropout 使 训练 时 间 增 加 了 两 到 三 倍 。 与 标准 
SGD 相 比 ，Droponut 在 学 习 梯 度 上 的 噪声 也 更 多 。 

一 种 对 抗 梯度 噪声 的 方法 是 使 用 更 高 的 动量 设置 (从 0.9 提高 到 0.95~0.99)。 在 某 些 情 况 
下 ， 这 将 导致 权重 变 大 ， 可 使 用 最 大 范 数 正则 化 来 控制 它 。 





DropConnect 
DropConnect 简单 地 将 一 些 权 重 (暂时 ) 设置 为 0。DropConnect 与 Dropout 
相关 ， 但 实际 上 它 不 是 Dropout 的 变 体 ， 它 们 是 不 同 的 概念 。 




















6.13.4 ”其 他 正则 化 事项 
以 下 是 其 他 一 些 需要 了 解 的 正则 化 事项 。 
口 随机 池 化 
随机 池 化 是 一 个 CNN (专用 的 ) 正则 化 技术 ， 通 过 它 ， 我 们 使 用 一 种 随机 凶 来 构建 
CNN 网 络 集 。 每 个 网 络 都 参与 每 个 特征 在 不 同 空 间 位 置 的 映射 。 
口 对 抗 训练 
可 以 通过 对 训练 数据 集 使 用 小 却 有 意 形 成 的 格式 错误 的 变 体 来 创建 输入 ， 这 将 生成 一 个 
能 够 给 出 高 可 靠 性 错误 答案 的 网 络 模型 。 实 践 证 明 这 可 以 减少 过 拟 合 ， 并 得 到 能 够 抵抗 
对 抗 样本 的 模型 。 
口 课程 学 习 
课程 学 习 的 做 法 是 从 小 批量 训练 数据 集中 容易 学 习 的 样本 开始 学 习 ， 然 后 随 着 时 间 的 推 
移 ， 了 逐步 训练 更 复杂 的 样本 。 以 这 种 策略 为 网 络 的 正则 化 器 ， 能 够 同时 使 得 训练 更 快 和 
收敛 更 好 ， 一 举 两 得 。 
并 行 化 与 正则 化 
在 学 习 期 间 ， 从 参数 向 量 的 权重 中 去 除 噪声 更 好 ， 部 分 原因 是 使 用 了 学 习 率 。 
从 最 终 权 重 中 去 除 一 些 噪声 的 一 种 方法 是 在 几 次 更 新 中 平均 权重 ， 也 可 以 通 
过 本 章 稍 后 将 介绍 的 并 行 运 行 时 模式 中 的 参数 平均 来 实现 这 一 效果 。 
在 某 些 并 行 化 的 情况 下 ， 不 使 用 先 验 函 数 作 为 正则 化 器 ， 因 为 参数 平均 本 身 
达到 了 预期 的 效果 。 




































































6.14 处理 类 别 不 平衡 

在 机 器 学 习 中 通常 需要 处 理 那 些 每 个 类 别 的 数据 数量 显著 不 平衡 的 训练 数据 集 。 这 种 情况 
通常 发 生 在 我 们 最 感 兴趣 的 事件 的 发 生 频 率 远 远 低 于 事件 没有 发 生 频 率 的 领域 ， 例 如 预测 
是 否 有 人 点 击 网 页 上 的 广告 。 

PhysioNet 与 重症 病房 死亡 率 预测 

第 1 章 提 到 的 PhysioNet 挑战 数据 集 是 具有 挑战 性 的 不 平衡 数据 集 的 一 个 很 


好 的 例子 。 获 取 大 量 (非常 ) 罕 见 的 事件 是 一 个 挑战 ， 如 重症 病房 的 死亡 
数据 。 












































对 于 大 多 数学 习 方 法 ， 如 果 根 据 99% 为 负 和 1% 为 正 的 数据 训练 模型 ， 那 么 模型 将 仅仅 能 
学 到 总 是 预测 占 统 治 地 位 的 类 别 〈 例 如 负 )。 一 开始 可 能 不 会 觉得 有 什么 不 对 ， 因 为 平均 
正确 分 数 会 显得 异常 高 ， 而 且 可 能 认为 模型 非常 准确 。 最 终 的 情况 是 : 由 于 学 习 过 程 中 的 
错误 降 到 了 最 低 ， 并 且 总 是 预测 出 值 为 正 的 结果 ， 正 确 率 可 以 达到 99%。 

在 不 平衡 数据 的 情况 下 构建 模型 的 一 个 好 的 做 法 是 不 严格 优化 预测 正确 率 。 相 反应 该 把 重 
点 放 在 评估 模型 上 ， 如 Fl 得 分 或 曲线 下 面积 (AUC)。 我 们 需要 模型 预测 一 些 值 为 正 ， 但 
希望 是 在 最 合适 的 时 候 预 测 。 























关于 模型 校准 
对 于 类 别 不 平衡 的 领域 ,网 络 经 常会 错误 预测 某 些 类 别 的 不 平衡 。 例 如 ， 当 没有 检测 
出 患者 患 有 某 种 严重 的 疾病 、 但 患者 实际 患 有 这 种 病 ( 假 朋 性 ) 时 ， 患 者 会 因此 死亡 。 
在 这 个 例子 中 ， 没 有 检测 到 致命 疾病 的 后 果 比 错误 预测 患者 患 有 该 疾病 要 大 得 多 。 从 
这 个 角度 来 看 ， 更 好 地 理解 模型 评估 是 现实 中 应 用 机 器 学 习 的 关键 。 
为 了 解决 模型 评估 问题 ， 可 使 用 一 种 称 为 模型 校准 的 方法 。 模 型 校准 通常 基于 一 些 改 
变 值 或 概率 的 转换 以 更 好 地 估计 。 表 6-9 总 结 了 这 些 校准 技术 。 


表 6-9: 校准 问题 的 分 类 











类 型 ”任务 ”问题 全 局 /局 部 校准 对 象 

CD 分 类 ”期望 类 别 分 布 不 同 于 实 类 分 布 全 局 或 局 部 预测 

CP 分 类 ”正确 猜测 的 预期 /估计 概率 与 实际 比例 不 同 ”局 部 概率 / 可 信和 度 

RD 回归 ”期望 输出 不 同 于 实际 平均 输出 全 局 或 局 部 预测 

RP 回归 ”期 望 / 估 计 误 差 置 信 区 间或 概率 密度 函数 太 局 部 概率 / 可 信和 度 
察 或 太 宽 


正如 论文 “Calibration of Machine Learning Models” (Bella 等 人 著 ) 中 所 指出 的 ，CD 
和 RD 类 型 需要 修改 预测 ， 以 便 校 准 结果 。 虽 然 本 书 没 有 详细 讨论 这 些 方法 ， 但 要 注 
意 这 一 课题 的 进一步 研究 。 
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在 训练 过 程 中 有 两 种 主要 的 方法 来 处 理 类 别 不 平衡 。 


。 从 较 大 类 别 中 抽样 或 从 较 不 频繁 的 类 别 中 多 采样 。 
。 基于 加 权 损 失 函 数 对 训练 实例 加 权 。 


下 面 详细 介绍 这 两 种 方法 。 


6.14.1 类 别 采 样 方法 

处 理 类 别 不 平衡 的 第 一 种 方法 是 对 较 大 的 类 别 进行 采样 ， 这 样 就 得 到 了 一 个 平衡 的 训练 数 
据 集 (例如 50% 为 正 ，50% 为 负 )。 这 种 方法 的 缺点 是 可 能 丢弃 了 好 的 数据 ， 但 好 处 是 使 
得 训练 更 高 效 。 

还 有 一 种 方法 是 事后 缩放 。 做 法 是 正常 训练 网 络 ， 但 在 训练 之 后 缩放 输出 。 这 种 方法 与 其 
他 方法 的 结果 不 太一 致 。 

另 一 种 方法 称 为 概率 采样 。 做 法 是 首先 随机 (例如 通过 某 个 概率 ) 选择 一 个 类 别 ， 然 后 在 
该 类 别 中 随机 选择 一 个 样本 。 

最 后 一 个 方法 是 超 采 样 ， 做 法 是 复制 低频 类 别 ， 对 它们 超 采 样 ， 直 到 达到 其 他 类 别 样 本 的 


3 转 . 4 
上 乃 
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6.14.2 ”加 权 损 失 函 数 


在 训练 期 间 处 理 类 别 不 平衡 的 另 一 种 方法 是 使 用 较 小 的 权重 来 训练 大 类 别 中 的 样本 。 这 有 
助 于 不 平衡 数据 集 的 训练 影响 达到 平衡 ， 创 建 泛 化 能 力 更 好 的 模型 ， 以 便 检 测 更 罕见 的 
标签 。 


为 了 详细 讲解 这 个 概念 ， 用 一 小 段 代 码 来 说 明 。 在 下 面 的 代码 片段 中 ， 创 建 了 一 个 INDArray， 
它 在 加 权 损 失 函 数 中 保存 用 于 类 别 加权 的 类 别 权 重 。 


INDArray weights = Nd4j.create(new double[]{0.1, 0.4, 1.0}); 


然后 将 这 些 权重 传递 到 损失 函数 ， 如 以 下 代码 片段 中 突出 显示 的 。 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(1) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.learningRate( learningRate) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.list() 
.layer(0, new DenseLayer .Builder().nIn(numInputs).nOut(numHiddenNodes) 
.weightInit(WeightInit.XAVIER) 
.activation(Activation.RELU) 
.build()) 
.layer(1, new OutputLayer .Builder(LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit(WeightInit.XAVIER) 



































注 4: 在 多 轮训 练 中 使 用 这 些 取样 方法 ， 对 于 深度 学 习 来 说 每 轮 的 取样 结果 之 间 并 没有 太 大 的 实际 差异 ， 但 
对 于 SVM 和 随机 森林 而 言 ， 每 轮 的 取样 结果 之 间 存 在 很 大 差异 。 












































.activation(Activation.SOFTMAX) 

.lossFunction(new LossNegativeLogLikelihood(weights)) 

.NIn(numHiddenNodes).nOut(numOutputs) .build()) 
.pretrain(false).backprop(true) .build(); 


使 用 加 权 损 失 函 数 背 后 的 动机 是 改变 优化 目标 ， 以 便 更 严厉 地 逢 罚 对 不 常见 类 别 的 错误 预 
测 。 理 想 状 态 下 ， 这 会 使 网 络 避 免 出 现 总 是 预测 最 常 发 生 的 (多 个 ) 类 别 的 较 差 局 部 最 优 
解 的 情况 。 














理解 相对 的 权重 值 
1.0 的 权重 相当 于 没有 加 权 (例如 {1.0, 1.0, 1.0} )。 在 这 个 配置 中 ， 所 有 值 均 
为 1.0 的 情况 与 根本 没有 提供 权重 数组 的 情况 完全 相同 。 对 经 常 出 现 的 类 别 
应 使 用 更 小 的 权重 。 











6.15 ”处 理 过 拟 合 


过 拟 合 指 机 器 学 习 工 作 流 对 训练 数据 集 学 习 得 过 好 ， 而 对 未 接触 过 的 数据 集 表现 不 佳 的 现 
象 。 这 样 的 模型 不 能 很 好 地 泛 化 到 更 大 的 数据 集 。 

如 果 模 型 在 训练 数据 中 学 到 侦 然 出 现 的 模式 ， 那 么 模型 在 测试 用 例 之 外 的 数据 上 将 表现 得 
很 差 。 如 果 训 练 模型 对 输入 数据 学 习 得 过 好 ， 那 么 它 就 不 能 很 好 地 处 理 测 试用 例 之 外 的 数 
据 ， 模 型 就 不 会 像 想 象 的 那样 有 用 。 这 两 种 情况 都 过 拟 合 了 训练 数据 ， 并 且 模 型 已 经 学 到 
了 随机 相关 性 ， 这 些 随机 相关 性 无 益 于 模型 对 未 接触 过 数据 进行 评分 。 


更 好 的 泛 化 


机 器 学 习 中 使 用 模型 的 目标 是 泛 化 训练 数据 集中 包含 的 信息 ， 以 便 该 模型 能 
够 很 好 地 处 理 来 自 相似 源 的 更 多 数据 。 























所 有 的 机 器 学 习 工 作 流 在 某 种 程度 上 都 有 过 拟 合 的 倾向 ， 关 键 在 于 知道 何 时 停止 训练 ， 使 
模型 能 够 很 好 地 泛 化 ， 同 时 尽 可 能 使 过 拟 合 的 量 最 小 。 当 用 深度 学 习 网 络 对 更 复杂 的 数据 
集 建 模 上 时， 网 络 中 总 是 使 用 更 多 的 参数 。 需 要 权衡 的 是 ， 必须 以 一 定 的 速率 增加 参数 以 便 
对 更 复杂 的 数据 集 建 模 ， 同 时 速率 又 不 能 过 快 ， 以 免 引 入 了 不 必要 的 过 拟 合 。 


为 了 检测 过 拟 合 ， 可 以 在 留存 的 测试 集 上 评估 模型 的 表现 。 重 要 的 是 ， 这 个 测试 集 不 用 于 
训练 ， 否 则 网 络 在 未 接触 过 的 数据 上 的 执行 情况 就 不 得 而 知 。 至 于 修复 过 拟 合 的 策略 ， 可 
以 使 用 以 下 一 个 或 多 个 方法 。 


增加 正则 化 (Ll1、L2、Dropout、DropConnect)。 
。 早期 停止。 

更 大 的 训练 数据 集 。 

更 小 的 网 络 。 


正则 化 通常 是 处 理 过 拟 合 的 第 一 步 。L1 和 1L2 正则 化 是 有 用 的 〈 之 前 探讨 过 )。Dropout 是 
一 种 常用 且 高 效 的 将 神经 网 络 正则 化 的 方法 。 
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过 拟 合 规则 与 参数 数量 




















偏离 训练 数据 上 的 准确 度 。 





当 模 型 中 没有 足够 的 参数 时 ， 它 是 不 准确 的 。 如 果 模 型 参数 过 多 ， 模 型 在 训 
练 数据 上 的 准确 度 看 上 去 会 很 好 ， 但 模型 会 过 拟 合 ， 留 存 数据 上 的 准确 度 会 





6.16 ”通过 调 优 UI 来 使 用 网 络 统计 信息 


DL4J 套件 中 的 网 络 统计 工具 能 够 实时 可 视 化 和 帮助 我 们 理解 神经 网 络 实际 在 做 什么 。 通 
过 检查 诸如 激活 、 梯 度 和 更 新 之 类 事情 的 当前 状态 (和 轨迹 )， 我 们 可 以 识别 网 络 训练 / 配 


置 问题 ， 并 执行 策略 来 纠正 这 些 问 题 。 
设置 DL4J 的 调 优 用 户 界面 很 简单 。 


UIServer uiServer = UIServer .getInstance(); 


StatsStorage statsStorage = new InMemoryStatsStorage(); 


uisServer .attach(statsStorage); 
int listenerFrequency = 1; 


myNetwork.setListeners(new StatsListener(statsStorage, listenerFrequency)); 


有 关 如 何 配置 statsListener 以 将 统计 信息 保存 到 存储 设备 、 更 改 UI 端口 或 将 结果 发 布 到 
远程 UI 的 详细 信息 ， 请 参阅 用 户 界面 示例 。 注 意 ， 使 用 ListenerFrequency 设置 收集 信息 
(激活 、 更 新 等 ) 的 频率 。 可 以 增加 这 个 数值 以 减少 与 收集 统计 信息 相关 的 开销 。 每 迭代 
10 次 收集 一 次 统计 信息 是 合适 的 ， 也 可 以 将 频率 设置 得 更 低 (如 果 只 是 想 在 较 长 的 时 间 段 














内 跟踪 调 优良 好 的 网 络 )。 

















DL4J 的 训练 UL 有 多 个 页 面 ， 其 中 第 一 个 是 概览 页 面 。 概 览 页 面包 括 4 个 部 分 ， 如 图 64 所 示 。 
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以 下 是 概览 页 面 提供 的 内 容 。 


左上 角 : 模型 得 分 与 迭代 (得 分 的 移动 平均 值 ) 

右上 方 : 网 络 信息 概要 

左下 角 : 更 新 : 参数 比 

右 下 角 : 激活 、 梯 度 、 更 新 与 时 间 
这 里 的 “得 分 ” 指 损失 函数 (MSE、 负 对 数 似 然 等 ) 的 值 ， 以 及 添加 到 损失 函数 的 任何 正 
则 化 项 (例如 Ll1、L2)。UI 的 第 二 页 是 模型 页 ， 如 图 6-5 所 示 ， 这 样 就 能 将 模型 结构 可 视 
化 并 分 别 获 得 每 层 的 更 多 细 方 。 
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6-5: DL4J 训练 UI 模型 页 面 








图 6-5 中 的 模型 页 被 分 成 两 部 分 ， 左 边 是 一 个 网 络 结构 的 概要 ， 显 示 了 层 (和 顶点 ， 在 计 
算 图 的 情况 下 )， 右 边 是 一 个 图 数量 的 汇总 表 〈 层 配置 )， 包 括 以 下 内 容 : 

每 个 类 型 的 参数 随时 间 推 移 的 更 新 比率 ( 它 还 有 参数 平均 大 小 和 更 新 平均 大 小 的 选项 卡 )， 
随 着 时 间 推 移 的 层 激活 值 (平均 值 和 平均 土 2 标准 差 ) ， 

层 的 每 个 参数 类 型 的 直方 图 ， 

层 的 每 个 参数 类 型 的 ) 更 新 直方 图 ， 

随 着 时 间 推 移 的 每 个 参数 的 学 习 率 (注意 : 曲线 将 是 平坦 的 , 除非 正在 使 用 学 习 率 调度 器 )。 


关闭 用 户 界面 服务 器 
可 以 通过 调用 UIServer .getInstance().stop() 关闭 UI, 或 者 在 完成 之 后 简 
单 地 手动 终止 JVM。UI 服务 器 将 一 直 运 行 直至 被 关闭 ， 即 使 训练 已 经 完成 。 
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最 后 ， 另 一 个 有 用 的 工具 是 计算 测试 集 上 的 损失 (或 准确 度 )， 即 不 用 于 训练 的 数据 。 这 
对 于 识别 过 拟 合 更 有 用 ， 而 UI 更 多 用 于 识别 和 修复 优化 困难 的 情况 。 通 常 先 使 用 UI 调 
整 ， 然 后 添加 测试 集 损失 / 准确 度 的 计算 。 


6.16.1 检测 不 佳 的 权重 初始 化 

简 而 言 之 ，ReLU 和 Xavier 的 初始 化 是 基于 网 络 架 构 ( 层 大 小 ) 和 关于 激活 函数 的 假设 来 

设计 的 ， 它 被 用 来 完成 两 件 事情 。 

。 确保 网 络 激活 的 方差 对 所 有 层 都 是 恒定 的 〈 即 在 网 络 后 面 的 层 中 ， 激 活 不 会 增长 得 太 大 
或 太 小 )。 

。 确保 向 活 梯度 (以 及 参数 ) 的 方差 对 所 有 层 都 是 恒定 的 ， 即 当 梯度 反 向 传播 到 前 面 的 网 
络 层 时 ， 它 们 不 会 增长 得 太 大 或 太 小 。 

但 通常 这 两 个 要 求 无 法 同时 满足 。 最 值得 注意 的 是 ， 当 相 邻 网 络 的 层 大 小 不 同时 (例如 大 

小 为 1024 的 层 的 后 面 是 大 小 为 10 的 层 ， 反 之 亦 然 )， 或 者 当 激 活 函 数 与 Xavier/ReLU 初 

始 化 假设 显著 不 同时 (例如 不 是 ReLU/tanh/ 恒 等 函 数 ， 或 者 形状 上 不 类 似 )， 可 能 需要 使 

用 不 同 的 初始 化 。 在 深度 网 络 中 ， 这 更 成 问题 ， 因 为 它们 可 能 只 在 有 少数 层 的 网 络 中 通过 

次 优 的 初始 化 而 得 以 避免 。 

检测 不 佳 权 重 的 初始 化 有 两 种 方法 。 首 先 可 以 在 概览 页 面 上 使 用 (logiy 激活 值 标准 差 图 ， 

如 图 6-6 所 示 。 




































































Standard Deviations: log1o Updates Gradients Activations 
至 0 
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> 
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| 和 in 
St. Dev : 0.00029, log 1o St. Dev : -3.53875 , Iteration: 300 











6-6: (logo) 激活 值 标 准 差 图 


这 是 采用 ReLU 权重 初始 化 〈 带 有 ReLU 激活 函数 ) 并 将 权重 初始 化 方差 减少 至 三 分 之 一 
而 产生 的 。 通 过 这 个 (故意 设置 得 较 差 的 ) 权重 初始 化 ， 激 活 逐 层 减少 ， 直 到 在 最 后 一 层 完 
全 消失 。 在 模型 页 面 上 ， 还 可 以 通过 查看 层 激活 与 迭代 的 图 来 检测 这 一 点 ， 如 图 6-7 所 示 。 




















Layer Activations Layer Activations 











图 6-7: 层 激活 图 
如 果 权 重 初始 化 大 大 ， 激 活 也 会 变 得 太 大 。 见 图 6-7 所 示 的 两 个 图 表 。 








通常 隐藏 层 激活 值 的 对 数 标准 差 在 1.0 左右 比较 好 。 





注意 ， 在 解析 这 些 图 表 时 ， 不 佳 的 数据 规范 化 可 能 看 起 来 与 不 佳 的 权重 初始 化 有 些 相似 。 
通常 可 以 通过 直接 查看 激活 图 来 识别 这 一 点 ， 例 如 ， 在 图 6-7 中 可 以 看 到 输入 标准 差 为 1， 
logio(1)=0。 这 是 一 个 很 好 的 输入 量 级 ， 因 此 如 果 看 到 异常 大 或 异常 小 的 激活 ， 应 该 检查 数 
据 规 范 化 。 


6.16.2 ”检测 非 混 洗 数据 

通常 使 用 小 批量 来 完成 神经 网 络 的 训练 ， 小 批量 的 定义 是 数据 的 子 集 (通常 32 到 1024 个 
样本 )。 为 了 在 训练 中 取得 更 好 的 结果 ， 数 据 需 要 被 混 洗 。 这 意味 着 样本 应 该 以 随机 顺序 
呈现 ， 而 不 是 (例如) 同一 小 批量 中 前 面 的 数据 全 部 属于 一 个 类 别 ， 后 面 的 数据 又 全 部 属 
于 另 一 类 别 。 如 果 训 | 练 数据 混 洗 得 很 好 ， 训 练 应 该 如 图 6-8 所 示 。 












































Model Score vs. Iteration 
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Score : -0.21044, Iteration : 263 











6-8: 训练 模型 评分 图 的 UI 界面 
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为 了 说 明 不 佳 的 混 洗 对 训练 造成 的 负面 影响 ， 考 虑 一 下 书 中 之 前 提 到 的 MNIST 数据 集 的 
情况 。 假 设 在 MNIST 上 训练 一 个 网 络 来 预测 数字 ， 但 不 是 按照 随机 顺序 (如 我 们 通常 那 
样 ) 呈现 样本 ,而 是 首先 按照 标签 数字 的 顺序 对 样本 排序 ， 这 样 首先 只 在 0 类 别 样本 的 小 
批量 上 训练 ， 然 后 只 用 1 类 别 的 样本 进行 训练 ， 以 此 类 推 。 


图 6-9 表明 ， 这 种 不 佳 的 混 洗 方式 会 导致 数据 随 着 时 间 推 移 在 模型 得 分 中 产生 不 同 的 模式 。 














Model Score vs. lteration 
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Score : -0.90307, Iteration : 671 











图 6-9: 有 峰值 出 现 的 训练 模型 分 数 图 


在 这 里 使 用 的 模型 通常 会 基于 混 洗 数 据 适当 地 训练 ， 并 生成 类 似 于 图 6-8 的 图 。 然 而 由 于 
数据 混 洗 不 佳 ， 训 练 分 数 中 出 现 了 周期 性 的 大 峰值 ， 这 与 训练 小 批量 中 数字 之 间 的 切换 相 
呼应 。 这 里 要 说 明 的 是 ， 当 出 现 这 些 周期 性 峰值 时 ， 我 们 最 有 可 能 对 如 何 准备 训练 数据 产 
生 疑 问 。 在 数据 准备 的 一 系列 工作 中 ， 这 个 问题 通常 容易 解决 ， 然 后 就 可 以 开始 了 。 
关于 小 批量 中 样本 顺序 的 说 明 
同样 值得 一 提 的 是 ， 在 一 个 小 批量 中 混 洗 样本 不 会 有 什么 差别 。 也 就 是 说 ， 
如 果 一 个 小 批量 中 有 32 个 样本 ， 那 么 这 32 个 样本 的 顺序 不 重要 ， 这 是 由 于 
一 个 小 批量 中 所 有 样本 的 梯度 在 应 用 于 模型 之 前 会 取 平 均值 。 






































6.16.3 ”检测 正则 化 的 问题 

正如 设置 学 习 率 一 样 ，L1 或 L2 正则 化 参数 值 设置 得 太 大 或 太 小 会 导致 训练 结果 质量 较 
差 。 设 置 的 值 太 大 会 导致 权重 变 为 0， 设 置 的 值 太 小 ， 又 可 能 导致 在 某 些 情况 下 过 拟 合 或 
学 习 不 稳定 。 可 以 使 用 模型 页 上 的 Param 选项 卡 来 检测 过 大 的 LL2 值 (使 权重 为 0)。 
Param 选项 卡 展 示 了 参数 的 平均 大 小 ， 如 图 6-10 所 示 。 








Update:Parameter Ratios (Mean Magnitudes): log1o Updates Param Ratio 
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FA 


-0.91 ,lteration : 4 











图 6-10: UI 上 的 权重 值 下 降 到 0 





可 以 看 到 平均 权重 值 开 始 较 高 ， 然 后 在 迭代 过 程 中 变 小 ， 这 表明 正则 化 方法 过 于 激进 ，LIL2 
正则 化 参数 值 应 该 降低 。 

可 以 用 同样 的 工具 检测 的 另 一 个 问题 是 检测 不 充分 的 正则 化 。 我 们 希望 在 层 的 参数 直方 图 
中 看 到 权重 呈现 一 个 好 的 、 正 常 的 分 布 形状 ， 如 图 6-11 所 示 。 









































Layer Parameters Histogram (W) 

















图 6-11: 具有 正常 权重 的 层 参数 直方 图 面板 


如 果 正 则 化 不 充分 ， 少 量 参数 常常 会 变 得 相当 大 。 在 这 种 情况 下 ， 层 的 参数 直方 图 可 能 呈 
现 为 图 6-12 的 样子 。 
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Layer Parameters Histogram (W) 














图 6-12: 具有 少量 大 的 权重 的 层 参 数 直方 图 

在 图 6-12 中 ， 可 能 很 难看 出 发 生 了 什么 ， 因 为 在 这 个 实例 中 只 有 少数 参数 在 变 大 (注意 柱 
状 图 中 被 圈 住 的 很 矮 的 部 分 )。 在 极端 情况 下 ， 随 着 训练 的 进行 ， 最 大 的 参数 可 能 向 士 om 
发 散 。 











调 优 特定 的 深度 网 络 飞 构 


你 现在 真正 需要 知道 的 是 ， 宇 宙 比 你 想象 的 要 复杂 得 多 ， 即 使 你 从 一 开始 就 认为 
它 非 常 复杂 。 
一 一 道格拉斯 .亚当 斯 ,《 银 河 系 漫游 指南 》 
本 章 在 第 6 章 学 习 的 一 般 深 度 网 络 调 优 概念 的 基础 上 ， 深 入 研究 如 何 对 特定 的 架构 调 优 ， 
例如 : 


。 CNN 

。 RNN 

。 DBN 

鉴于 计算 机 视觉 是 深度 学 习 领 域 中 比较 流行 的 应 用 之 一 ， 我 们 首先 学 习 对 CNN 架构 调 优 。 
7.1 CNN 


CNN 有 一 些 通用 的 设计 模式 ， 以 及 特定 的 卷 积 架构 设计 模式 。 第 6 章 介绍 了 通用 的 网 络 设 
计 模 式 ， 本 节 将 回顾 与 CNN 架构 相关 的 技术 ， 重 点 介绍 卷 积 层 和 池 化 层 的 布局 模式 。 

从 输入 到 网 络 层 ， 卷 积 阶段 使 用 多 个 过 滤器 学 习 不 同 的 特征 ， 如 第 4 章 所 述 。 这 个 阶段 的 
输出 由 ReLU 激活 函数 转换 。 


检测 器 阶段 

一 些 CNN 文献 将 CNN 架构 中 的 检测 器 阶段 划分 为 单独 的 层 或 阶段 。 检 测 器 
阶段 仅仅 是 一 个 层 的 激活 函数 ， 在 DL4J 中 ， 激 活 函 数 被 视 作 层 的 一 部 分 。 
本 书 将 检测 器 阶段 作为 卷 积 阶段 的 一 部 分 。 
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池 化 层 通常 揪 在 连续 的 卷 积 层 之 间 。 在 卷 积 层 之 后 使 用 池 化 层 ， 以 逐步 减 小 数据 表示 的 空间 
大 小 (宽度 和 高 度 )， 这 逐渐 减少 了 网 络 中 参数 的 数量 和 所 需 的 计算 。 以 这 种 方式 减少 参数 
也 有 助 于 避免 过 拟 合 。 大 多 数 与 调 优 相关 的 其 他 主题 ， 如 输出 层 策略 ， 第 6 章 已 经 介绍 过 。 


7.1.1 卷 积 架构 常见 的 模式 
在 池 化 层 之 间 常 有 一 个 卷 积 层 ， 模 式 如 下 所 示 ; 
， 输入 层 

卷 积 层 

池 化 层 

卷 积 层 

池 化 层 

全 连接 层 

另 一 个 (可 能 的 ) 全 连接 层 
有 时 在 池 化 层 之 前 会 有 多 个 卷 积 层 形成 的 序列 。 

















在 更 大 的 网 络 中 ， 在 每 个 池 化 层 之 前 堆 合 两 个 卷 积 层 是 一 个 好 的 做 法 。 这 使 
得 更 大 的 网 络 在 用 池 化 层 下 采样 之 前 ， 能 够 发 现 更 复杂 的 特征 。 














为 了 进一步 理解 架构 模式 ， 回 顾 一 下 第 5 章 介绍 的 LeNet 示例 。 该 网 络 最 早 在 1998 年 由 
Yann LeCub 公开 ， 是 最 著名 的 卷 积 架构 之 一 。 它 已 被 证 明 能 够 成 功 地 对 MNIST 建 模 ， 正 
如 5.5 市 介绍 的 那样 。 下 面 是 一 个 特定 层 架 构 的 列表 。 


。 输入 层 

卷 积 层 : 20 个 过 滤器 [5 x 5] 

最 大 池 化 层 : [2 x 2] 

卷 积 层 : 50 个 过 滤器 [5 x 5] 

最 大 池 化 层 : [2 x 2] 

全 连接 层 
示例 7-1 展示 了 第 5 章 Java 代码 示例 中 该 架构 的 配置 。 为 了 简洁 起 见 ， 这 里 只 列 出 了 代码 
的 配置 部 分 ， 便 于 比较 刚刚 描述 的 架构 布局 与 特定 的 LeNet 配置 。 


示例 7-1 Java 中 的 LeNet DL4J 模型 配置 


/* 








构建 神经 网 络 
*/ 

log.info("Build model...."); 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(iterations) // 如 上 训练 运 代 
.reguLarization(true).L2(0.0005) 
.learningRate( .01) 
.weightInit(WeightInit.XAVIER) 
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.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.list() 
.layer(0, new ConvolutionLayer .Builder(5, 5) 
//nIn 和 nOut 指 定 深度 。 这 里 的 nIn 是 nchannels，n0ut 是 要 应 用 的 过 滤器 的 数量 
.nNIn(nChannels) 
.stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(1, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(2, new ConvolutionLayer .Builder(5, 5) 
// 注 意 nIn 无 须 应 用 到 后 面 的 层 
.stride(1, 1) 
.NOut(50) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(3, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(4, new DenseLayer .Builder().activation(Activation.RELU) 
.NOut(500).build()) 
.layer(5, new OutputLayer .Builder(LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 
.NOut(outputNum) 
.activation(Activation.SOFTMAX) 
.build()) 
.SetInputType(InputType.convolutionalFlat(28,28,1)) // 查 看 下 面 的 说 明 
.backprop(true).pretrain(false).build(); 

















在 示例 7-1 中 ， 每 个 卷 积 层 后 面 都 跟 有 一 个 池 化 层 ， 之 后 网 络 进入 一 个 全 连接 的 DenseLayer， 














接着 是 一 个 含 softmax 激活 函数 的 输出 层 。 这 里 的 softmax 激活 函数 用 于 检测 训练 /测试 数 








居 集 的 数据 是 10 个 MNIST 数字 中 的 哪 一 个 。 需 要 注意 这 里 还 有 一 种 方法 : 


.SetInputType(InputType.convolutionalFlat(28,28,1)) 


这 个 调用 做 了 以 下 几 件 事 情 。 


添加 预 处 理 器 ， 它 处 理 卷 积 / 子 采样 层 和 密集 层 之 间 的 转换 之 类 的 习 
进行 一 些 额 外 的 配置 验证 。 
必要 上 时， 根据 前 一 层 的 大 小 设置 每 一 层 的 nIn (输入 神经 元 的 数量 ,或 CNN 网 络 中 的 
输入 深度 ) 值 。 

它 不 会 覆盖 通过 InputTypes 手动 设置 的 值 。 
一 可 以 把 它 用 于 其 他 类 型 的 层 (RNN、MLP 等 )， 而 不 仅仅 是 CNN。 











i 





情 
月 。 



































通常 在 设计 卷 积 架 构 时 ， 应 该 使 用 多 个 较 小 的 卷 积 层 ， 而 不 是 使 用 一 个 含有 大 感受 野 的 单 


个 卷 积 层 。 


这 使 网 络 能 够 通过 更 具 表 现 力 的 特征 ， 从 数据 中 提取 更 多 非 线性 动态 。 
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对 于 第 一 个 卷 积 层 ， 输 入 深度 (nIn) 必须 与 数据 匹配 ， 但 通道 数 (nout) 是 自由 参数 。 
“单元 数 ” 通 常 指 n0ut。 理 想 情况 下 ， 这 个 输入 层 的 大 小 可 以 被 2 除 多 次 ,以便 有 足够 的 
信息 随时 间 下 采样 并 构建 特征 。 例 如 用 CNN 对 CIFAR-10 (第 4 章 介绍 过 ) 建 模 时 ， 输 入 
层 的 大 小 为 32。 大 多 数 情况 下 ， 使 用 ReLU 激活 函数 来 实现 卷 积 层 。 

输入 数据 通道 由 .nIn() 方法 控制 ， 如 下 所 示 : 


.layer(0, new ConvolutionLayer .Builder(5, 5) 
//nIn 和 nO0ut 指 定 深度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 的 过 滤器 的 数量 
.NnIn(nChannels) 


可 以 根据 输入 类 型 配置 它 ， 但 它 通常 在 单 色 的 情况 下 为 1， 在 RGB 的 情况 下 为 3。 当 然 ， 
如 果 输 入 不 是 图 像 数据 并 且 具 有 多 维 表示 ， 那 么 这 个 数字 可 能 大 得 多 。 

关于 第 一 个 卷 积 层 大 小 的 一 些 注意 事项 

通常 ， 输 入 层 单元 的 数量 取决 于 步 长 /过 滤器 大 小 。 

一 个 有 趣 的 例子 是 AlexNet: 224x224x3 的 输入 ， 以 及 11 x 11 的 内 核 (在 
当时 是 非常 大 的 ) 。 

在 实践 中 ， 可 以 将 数据 裁剪 或 缩放 到 一 个 适合 要 使 用 的 网 络 配置 的 大 小 。 但 

如 果 可 能 的 话 ， 最 好 是 裁剪 / 缩小 (不 要 放大 )。 












































除了 第 一 个 卷 积 层 ， 还 有 一 种 重复 模式 : 更 多 的 卷 积 层 后 面 跟着 池 化 层 。 在 一 些 架 构 中 ， 
比如 VGGNet， 多 个 (如 两 个 ) 卷 积 层 会 连续 出 现在 池 化 层 之 前 。 


通常 ， 在 CNN 配置 中 ,往往 首先 设置 较 大 的 过 滤器 ， 然 后 逐渐 减 小 过 滤器 的 大 小 。 


卷 积 层 序列 上 没有 银 弹 

写作 本 书 时 ， 并 不 存在 能 够 完美 适用 于 所 有 图 像 建 模 问题 的 神奇 的 卷 积 架 
构 。 建 议 从 已 知 的 成 功 架 构 (如 LeNet、VGGNet、Inception 或 AlexNet) 开 
始 ， 利 用 它 解 决 你 的 问题 。 之 后 ， 你 可 以 调整 层 序列 和 超 参 数 ， 使 用 已 知 的 
架构 作为 “已 知 良好 的 解决 方案 的 起 点 ”。 


























输出 层 将 遵循 第 6 章 介 绍 过 的 模式 。 


7.1.2 配置 卷 积 层 

设置 卷 积 层 的 空间 排列 ， 然 后 选择 过 滤器 的 数量 。 
在 卷 积 层 中 设置 超 参 数 的 方式 决定 了 输出 空间 中 神经 元 的 数量 及 其 排列 方式 。 以 下 是 关键 
的 超 参数 : 


。 过 滤器 大 小 
步 长 
填充 








例如 用 5 x 5 过 滤器 构建 卷 积 层 ， 那 么 代码 如 以 下 所 示 : 


ConvolutionLayer convLayer = new ConvolutionLayer .Builder() 
.kernelSize(5,5).stride(1,1).padding(2,2) 
.Name( "first_ layer") 
.NOut(out) 
.biasInit(bias) 
.build(); 


在 这 个 示例 中 ， 过 滤器 大 小 (.kernelsize) 是 5x5， 步 长 (1, 1) 和 填充 (2, 2) 参数 都 采用 了 
整数 参数 。 使 用 .nane() 方法 将 这 个 卷 积 层 命名 为 first_layer， 并 通过 .nO0ut(out) 方法 调 
用 设置 过 滤器 的 数量 。 层 本 身 的 输出 比 单元 输出 数量 更 复杂 。 稍 后 将 计算 输出 空间 的 大 小 。 
1. 设置 过 滤器 的 步 长 

对 于 步 长 来 说 ， 我 们 围绕 空间 维度 (宽度 、 高 度 ) 分 配 深度 列 。 随 着 步 长 增 大 ， 感 受 野 
的 重 县 变 少 ， 并 且 输 出 空间 变 得 更 小 。 之 前 的 例子 中 已 经 为 卷 积 层 设置 了 这 个 参数 ， 如 
下 所 示 : 


.stride(1,1) 


这 意味 着 每 次 应 用 过 让 器 时 ， 过 滤器 将 向 右 “ 请 动 ”一 个 输入 网 格 单元 和 向 下 “请 动 ” 一 
个 输入 网 格 单元 (更 多 相关 信息 ， 请 参阅 第 4 章 )。 如 果 步 长 为 2， 那 么 过 滤器 将 一 次 跳跃 
或 滑动 两 个 像素 。 





















































步 长 值 超过 2 
在 实践 中 超过 2 的 步 长 设置 不 常见 ， 尤 其 在 过 滤器 较 小 时 。 应 该 彻底 避免 设 
置 大 于 过 滤器 的 步 长 。 





随 着 步 长 值 的 增 大 ， 输 出 空间 会 变 小 。 实 践 证 明 ， 在 卷 积 层 中 较 小 的 步 长 (例如 1) 能 够 
更 好 地 工作 。 

这 使 凶 化 层 得 以 进行 下 采样 工作 ， 并 使 卷 积 层 将 专注 于 仅 转 换 空 间 中 的 深度 。 

2. 使 用 填充 

在 某 些 架 构 的 某 些 组 件 中 (如 Inception) ， 会 保留 输入 空间 的 空间 大 小 〈 之 后 会 探讨 细 
节 )， 因 此 使 用 零 填 充 控制 输出 空间 的 大 小 。 在 输入 空间 经 常会 使 用 零 填 充 ， 这 样 卷 积 层 
就 不 会 改变 输入 的 空间 维度 。 零 填充 也 保留 了 边界 附近 的 输入 信息 。 

3. 选择 过 滤器 的 数量 

每 个 过 滤器 可 以 在 输入 的 训练 数据 中 寻找 不 同 的 东西 。 随 着 数据 的 变化 和 复杂 性 的 增加 ， 
逻辑 上 需要 更 多 过 滤器 来 捕获 相关 特征 ， 图 7-1 展示 了 从 网 络 中 第 一 个 卷 积 层 学 习 的 过 
滤器 。 
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7-1: 96 个 学 习 过 滤器 的 可 视 化 ， 大 小 为 11x11x3 


应 该 明智 地 选择 卷 积 层 过 滤器 的 数量 ， 因 为 计算 单个 卷 积 过 滤器 激活 的 成 本 比 传 统 多 层 神 
经 网 络 层 的 更 高 。 在 DL4J 中 ， 使 用 配置 中 的 nout(int) 选项 配置 过 滤器 数量 。 

当 网 络 沿 CNN 的 层 前 进 时 ， 激 活 映 射 减 小 。 靠 近 输 入 层 的 层 的 过 滤器 往往 较 少 。 越 接近 
CNN 的 输出 层 ， 过 滤器 越 多 。 

虽然 没有 特定 的 启发 式 方法 来 设置 每 个 卷 积 层 过 滤器 的 数量 ,但 需要 了 解 ， 在 一 些 较 大 的 
CNN 架构 中 ， 过 滤器 的 数量 大 约 在 64 和 1024 (高 级 网 络 ) 之 间 ， 并 随 着 输入 的 增长 而 增 
长 。 表 7-1 给 出 了 三 种 常用 CNN 架构 的 过 滤器 数量 。 

表 7-1: 过 滤器 数量 示例 

CNN 卷 积 层 过 滤器 数量 的 增长 

LeNet 20，50 

AlexNet 96，256，384，384，256 

VGGNet 64，128，256，512，512 





计算 成 本 与 数据 保存 


所 有 层 中 的 计算 成 本 需要 保持 大 致 相同 ， 因 此 每 层 的 特征 数量 和 像素 位 置 数 
量 的 乘积 需要 大 致 相同 。 这 意味 着 当 从 输入 建立 特征 时 ， 我 们 往往 通过 池 化 
层 下 采样 来 丢弃 输入 数据 。 这 使 得 直到 网 络 的 结束 ， 输 入 相关 的 信息 都 能 够 
保持 ， 但 是 以 不 同 的 形式 (特征 )。 








4. 配置 过 滤器 大 小 

与 较 少 的 卷 积 层 中 的 大 过 滤器 相 比 '"， 多 个 堆 琶 卷 积 层 中 的 小 过 滤器 往往 表现 更 好 。 

随 着 过 滤器 的 增 大 ， 计 算 成 本 也 随 之 增加 ， 而 且 每 个 过 滤器 的 输入 区 域 也 更 大 。 空 间 过 滤 
器 较 大 (例如 5x5 或 7x7) 的 卷 积 ， 计 算 成 本 往往 不 成 比例 地 高 。 例 如 对 于 网 格 中 及 
个 过 滤器 的 5x5 卷 积 和 有 m 个 过 滤器 的 3 x 3 卷 积 来 说 ， 在 过 滤器 数量 相同 的 情况 下 ， 前 
者 的 计算 成 本 是 后 者 的 25/9 = 2.78 倍 。 

















注 1: Ciresan 在 2011 年 引入 了 小 过 滤器 的 概念 ， 但 是 网 络 并 没有 当时 其 他 网 络 那么 深 。Goodfellow 在 2014 
年 应 用 了 类 似 的 方法 来 识别 路 标 。GoogleLeNet (Szegedy) 也 在 2014 年 使 用 这 种 方法 赢得 了 ImageNet。 
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建议 选择 一 个 明显 小 于 输入 空间 维度 ， 但 是 又 足够 大 、 能 够 捕获 相关 特征 的 特征 大 小 。 对 
于 卷 积 层 , 使 用 小 的 过 滤器 (3 x3 或 5x5) 和 值 为 1 的 步 长 *。 与 之 相 比 ,GoogLeNet 是 一 
个 相对 复杂 的 CNN， 过 滤器 的 大 小 在 1x1、3 x3 和 5x5 之 间 。 

另 一 个 流行 的 网 络 VGGNET 有 一 些 有 趣 的 特性 ， 已 被 证 明 是 成 功 的 。 卷 积 层 过 滤器 的 大 
小 通常 为 3x3， 这 是 保留 捕获 像素 (例如 左 、 右 、 上 、 下 和 中 心 ) 概念 的 最 小 尺寸。 

过 滤器 大 小 与 连续 层 的 比较 

用 三 个 具有 3 x3 过 滤器 的 卷 积 层 加 上 池 化 层 ， 类 似 于 用 一 个 具有 7x7 过滤 

器 的 卷 积 层 。 

添加 更 多 的 卷 积 层 和 过 滤器 使 得 在 学 习 过 程 中 能 够 利用 更 多 的 正则 化 。 更 多 

的 层 应 用 更 多 的 非 线 性 转换 ， 并 减少 了 被 应 用 参数 的 数量 。 











另 一 种 获得 层 序 列 和 过 滤器 形状 的 方法 是 基于 VGGNet 或 GoogLeNet 这 样 的 成 功 架 构 ， 从 
这 些 网 络 中 观察 到 的 模式 “中 汲取 灵感 。 
v3 Inception 论文 中 关于 过 滤器 大 小 的 警告 
我 们 注意 到 文中 提 到 
上 述 结果 显示 ， 过 滤器 大 于 3 x3 的 卷 积 通常 是 没有 用 的 ， 因 为 它们 总 
是 可 以 简化 为 3x3 卷 积 层 的 序列 。 
5. 卷 积 模式 与 输出 空间 大 小 的 计算 
计算 输出 空间 大 小 的 通用 公式 如 下 ， 它 是 输入 空间 大 小 的 函数 。 
输出 空间 的 大 小 =(W 一 F+2P)/S+1 
表 7-2 定义 了 其 中 的 变量 。 
表 7-2: 输出 空间 大 小 的 变量 
描述 
输入 空间 大 小 
卷 积 层 神 经 元 感受 野 的 大 小 
步 长 设置 
零 填 充 设置 
这 个 方程 的 结果 应 该 是 整数 ， 如 果 不 是 ， 说 明 配置 不 正确 。 如 果 结 果 不 是 整数 ， 可 以 使 用 
填充 、 不 同 的 过 滤器 大 小 ， 或 者 使 用 截断 模式 ( 稍 后 介绍 ) 来 修复 它 。 需 要 注意 : 卷 积 层 
保持 其 输入 空间 的 大 小 ， 而 池 化 层 通 过 下 采样 减 小 输入 空间 的 大 小 。 
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注 2: 例如 MNIST 输入 图 像 的 空间 维度 为 [28 x 28]， 第 一 个 卷 积 层 上 过 滤器 大 小 通常 为 [5 x 5]。 

注 3: 也 称 “Inception”， 是 2014 年 ImageNet 大 规模 视觉 识别 挑战 赛 (LSVRC 2014) 中 分 类 和 检测 类 别 的 
注 4: AlexNet 等 网 络 中 的 过 滤器 / 内 核 大 小 在 现代 标准 下 有 点 大 。 同 样 它 可 能 需要 被 测试 ， 并 且 请 牢记 : 
可 以 在 处 理 图 像 〈 例 如 裁剪 或 缩放 到 某 些 尺寸 ) 使 之 有 助 于 网 络 更 好 地 工作 之 后 ， 设 置 图 像 大 小 。 
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跟踪 输入 空间 

如 果 使 用 的 步 长 大 于 1， 或 者 不 对 卷 积 层 中 的 输入 进行 零 填 充 ， 那 么 需要 通 
过 卷 积 网 络 跟踪 输入 空间 。 网 络 中 所 有 的 步 长 和 过 滤器 需要 保持 平衡 。 
DL4J 确实 有 一 些 输入 验证 可 以 捕获 许多 无 效 的 配置 ， 然 而 要 想 知 道 如 何 修 
复 问 题 (或 者 知道 每 一 层 中 什么 是 有 效 的 )， 仍 然 需要 遍历 整个 空间 。 还 需 
注意 的 是 ， 有 些 配置 是 任何 数量 的 填充 都 无 法 修复 的 。 
































在 DL4J 中 ， 对 于 给 定 的 输入 大 小 和 网 络 配置 (特别 是 步 长 /填充 / 核 大 小 )，ConvolutionMode 
定义 了 卷 积 层 和 子 采 样 层 应 该 如 何 执行 卷 积 操作 。 
目前 ，DL4J 中 提供 了 三 种 模式 : 

严格 模式 
。 截断 模式 

同一 模式 
在 严格 模式 下 ， 卷 积 层 和 子 采 样 层 在 每 个 维度 上 的 输出 大 小 的 计算 方法 如 下 : 

输出 大 小 = (输入 大 小 一 核 大 小 +2x 填充) / 步 长 +1 

如 果 输 出 大 小 不 是 整数 ， 那 么 在 网 络 初始 化 或 前 向 传递 时 会 引发 异常 。 


在 截断 模式 下 ， 卷 积 层 和 子 采样 层 在 每 个 维度 上 的 输出 大 小 都 以 与 严格 模式 相同 的 方式 计 
算 。 如 有 果 输 出 大 小 是 整数 ， 那 么 严格 模式 和 截断 模式 相同 。 但 如 果 输 出 大 小 不 是 整数 ， 那 
么 在 截断 模式 下 ， 输 出 大 小 将 被 向 下 舍 入 到 整数 值 。 
向 下 舍 入 的 后 果 
向 下 舍 入 的 主要 后 果 是 边界 /边缘 效应 。 实 际 上 ， 沿 给 定 维度 (高度 或 宽度 ) 
的 一 些 输 入 将 不 被 用 作 输 入 ， 因 此 一 些 输入 激活 会 被 丢弃 /忽略 。 在 网 络 中 
(其 中 裁剪 的 激活 可 能 在 原始 输入 中 占 很 大 比例 ) 这 可 能 存在 较 大 的 问题 ， 
可 能 需要 设置 大 的 核 和 步 长 。 
同一 模式 与 严格 / 截断 模式 的 操作 方式 不 同 ， 主 要 区 别 有 以 下 三 点 。 
不 使 用 卷 积 层 / 子 采样 层 配置 中 的 手动 填充 值 ， 而 是 基于 输入 大 小 、 核 大 小 和 步 长 自动 
计算 填充 值 。 
与 严格 / 截断 模式 相 比 ， 输 出 大 小 的 计算 方式 不 同 〈 稍 后 将 详细 探讨 ) 。 最 明显 的 是 ， 
当 步 长 =1 时 ， 输 出 大 小 与 输入 大 小 相同 。 
。 对 于 顶部 /底部 和 左 部 / 右 部 ， 计 算出 的 填充 值 可 能 不 同 ( 比 如 右 部 和 底部 可 能 比 顶 部 / 
左 部 多 填充 一 个 像素 / 行 / 列 )。 


7.1.3 配置 池 化 层 


池 化 函数 用 相 邻 连接 的 神经 元 输出 的 汇总 统计 值 代 替 特 定点 的 层 输出 ， 这 有 助 于 模型 表示 
在 输入 数据 有 微小 变化 时 保持 不 变 。 池 化 层 本 身 没有 参数 要 处 理 ， 因 为 它们 使 用 固定 函数 
计算 输入 。 零 填充 通常 不 用 于 池 化 层 。 
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池 化 层 的 微小 变化 不 变性 
在 训练 图 像 数据 时 ， 模 型 对 微小 变化 不 变 或 对 局 部 平移 不 变 是 有 用 的 。 
使 用 池 化 的 最 大 原因 是 卷 积 层 学 习 的 函数 必须 对 微小 变化 是 不 变 的 ， 使 得 通 
过 网 络 的 统计 效果 能 够 得 到 更 强 的 卷 积 网 络 。 
通常 将 池 化 层 中 进行 下 采样 操作 的 最 大 池 化 的 形状 (例如 空间 维度 : 宽度 、 高 度 ) 设置 为 
[2x2]， 如 下 面 的 代码 片段 所 示 : 
.layer(1, new SubsamplingLayer.Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.stride(2,2) 
.build()) 
需要 注意 : 如 果 过 快 地 增加 池 化 空间 的 维度 ， 就 会 面临 丢失 过 多 信息 的 风险 。 
在 实践 中 ， 最 大 池 化 往往 以 下 面 两 个 池 化 层 变 体 的 形式 出 现 。 
感受 野 大 小 为 3， 步 长 为 2 ( 重 又 池 )。 
感受 野 大 小 为 2， 步 长 为 2 (更 常见 的 变 体 )。 



































如 果 池 的 感受 野 增 加 到 超过 了 这 些 设置 ， 往 往 会 丢失 太 多 的 信息 。 




















最 近 最 大 池 化 比 其 他 变 体 更 受 欢 迎 ， 如 平均 池 化 或 L2 范 数 池 化 。 与 其 他 变 体 相 比 ， 最 大 
池 化 在 实践 中 表现 得 更 好 。 


7.1.4 ”迁移 学 习 


由 于 任务 所 需 的 处 理 能 力 /时 间 ，CNN 模型 很 少 从 随机 初始 化 参数 开始 训练 。 第 4 章 介 绍 
了 深度 学 习 流 行 的 一 大 驱动 因素 是 许多 可 用 且 高 质量 的 大 规模 数据 集 ， 如 ImageNet (120 
万 已 标记 的 训练 图 像 )。 虽 然 像 ImageNet 这 样 的 基准 训练 数据 集 已 经 变 得 更 好 ， 但 是 我 们 
很 少 基 于 一 个 大 的 标记 训练 数据 集 来 使 用 CNN 执行 大 规模 的 图 像 训 练 。 改 善 这 个 问题 的 
一 个 方法 是 从 先前 训练 的 结果 良好 的 CNN 模型 开始 ， 然 后 进一步 在 特定 的 图 像 数据 集 上 
训练 ， 这 被 称 为 “迁移 学 习 。 
1. 从 零 开 始 训练 的 蔡 代 方案 
CNN 在 网 络 的 前 几 层 学 习 了 常见 的 视觉 特征 ， 然 后 在 后 几 层 逐 步 建 立 数据 集 的 特征 。 这 些 
早期 的 层 特征 类 似 于 Gabor 过 滤器 和 斑点 ， 并 且 大 体 上 是 视觉 处 理 的 “构建 块 "。 以 下 是 
需要 了 解 的 迁移 学 习 的 两 个 用 例 。 
。 对 现 有 模型 调 优 。 

以 现 有 卷 积 模型 为 特征 提取 器 。 
虽然 这 两 种 方法 通常 都 使 用 ImageNet 上 的 预 训 练 模 型 ， 但 它们 的 主要 区 别 是 最 终 的 调 优 
方式 不 同 。 下 面 是 每 种 调 优 方式 的 一 些 细 市 。 
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口 对 现 有 卷 积 模型 的 调 优 

在 这 个 迁移 学 习 的 变 体 中 ，CNN 模型 在 像 ImageNet 这 样 的 大 型 数据 集 上 训练 ， 然 后 用 
特定 于 数据 集 调 优 的 东西 替换 最 后 一 个 “分 类 器 层 ” 。 有 些 变 体 将 继续 在 所 有 层 上 执行 
反 癌 传播， 而 其 他 变 体 则 只 更 新 后 面 的 层 。 这 是 因为 早期 层 的 许多 特征 对 于 所 有 类 型 的 
视觉 处 理 都 通用 ， 基 本 上 不 需要 更 新 它们 。 后 面 的 层 专注 于 以 任务 特定 的 方式 组 合 这 些 
较 低 级 别 的 特征 ， 并 且 与 针对 特定 领域 的 数据 集 的 训练 更 加 相关 。 

口 以 现 有 卷 积 模型 为 特征 提取 器 

在 这 个 迁移 学 习 的 变 体 中 ， 采 用 最 后 一 个 全 连接 的 层 ， 即 输出 层 ， 并 且 考 虑 把 CNN 的 

其 余部 分 作为 较 小 数据 集 的 “特征 提取 器 "。 这 也 是 相关 的 ， 因 为 ImageNet 等 预 训 练 数 

据 集 在 输出 层 中 将 有 1000 个 不 同类 别 的 输出 ， 并 且 可 能 与 特定 领域 的 任务 不 相关 。 

从 零 开 始 训练 ImageNet 

在 ImageNet 上 使 用 多 个 GPU 训练 CNN 需要 耗费 两 到 三 周 的 时 间 。 对 于 实 

践 者 来 说 ， 发 布 他 们 的 模型 、 供 他 人 用 作 继 续 训 练 自己 模型 预 训练 的 起 点 ， 

是 常见 的 做 法 。Caffe 项 目 有 一 个 模型 “动物 园 ”(https://github.com/BVLC/ 

caffe/wiki/Model-Zoo) ， 可 以 从 中 下 载 许 多 预 训练 过 的 模型 。 










































































2. 何 时 考虑 尝试 迁移 学 习 
可 以 在 以 下 场景 (或 场景 的 组 合 ) 中 尝试 使 用 迁移 学 习 。 
。 训练 数据 集 很 小 。 
。 训练 数据 集 与 基本 数据 集 共享 视觉 特征 。 
在 其 他 场景 中 ， 你 也 可 能 成 功 应 用 迁移 学 习 。 
关于 迁移 学 习 中 的 学 习 率 
在 迁移 学 习 中 调 优 时 ， 建 议 对 较 小 的 调 优 数据 集 使 用 较 低 的 学 习 率 ， 因 为 预 
先 训练 的 权重 可 能 已 经 很 好 了 。 














7.2 RNN 


RNN 与 其 他 架构 (如 CNN) 有 一 些 相 似 之 处 ,但 是 它们 都 有 其 自身 的 难点 和 超 参数 集合 。 
与 大 多 数 神经 网 络 一 样 ， 没 有 一 种 确定 的 方法 能 立即 找到 最 佳 的 设置 。 超 参数 经 常会 拖延 
学 习 过 程 ， 其 至 会 造成 网 络 比 以 前 更 糟 。 在 此 提醒 大 家 ， 所 有 的 网 络 都 需要 不 断 试 错 。 
DL4J 与 LSTM 网 络 
DL4J 目前 支持 最 流行 的 RNN 变 体 : LSTM 模型 。 至 于 RNN 的 其 他 变 体 ， 
DL4J 正在 积极 开发 之 中 。 
DL4J 还 支持 双向 LSTM。 
RNN 的 变 体 还 有 门 控 循 环 单元 (GRU) 和 “普通 ”RNN。 


























7.2.1 网 络 输入 数据 和 输入 层 
传统 上 ， 标 准 前 馈 神 经 网 络 的 输入 数据 是 单个 向 量 (一 维 ) 或 矩阵 (二 维 ， 包 含 用 于 训练 
的 小 批量 向 量 )。RNN 具有 代表 输入 时 间 序列 数据 时 间 维 度 的 输入 数据 的 第 三 维 。 在 DL4J 
中 ,使 用 以 下 参数 表示 输入 (参见 图 7-2) : 
。 样本 数 
。 输入 大 小 〈 列 数 ) 
时 间 序 列 长 度 
构造 用 于 RNN 的 空间 输入 数据 要 比 传统 的 网 络 耗费 更 多 的 精力 ， 如 多 层 感知 器 。 正 如 先 
前 书 中 讨论 过 的 (如 图 7-2 所 示 )， 输 入 有 三 个 维度 : 
。 小 批量 大 小 ， 
。 每 个 时 间 步 向 量 中 的 列 数 ， 
时 间 序 列 长 度 。 























前 馈 网 络 数 据 循环 网 络 数据 


时 间 序 列 
(样本 ) 





( 这 开 攻 江 ) 











图 7-2: RNN 的 三 维 输入 表示 

为 了 更 容易 理解 是 如 何 做 到 这 一 点 的 ， 请 参阅 附录 和 附录 下 。 第 8 章 将 研究 时 间 序 列 向 
量化 的 一 般 模式 。 

标准 化 

通常 ， 对 所 有 神经 网 络 的 输入 数据 (例如 零 均值 、 单 位 方差 ) 进行 标准 化 是 

有 用 的 ， 这 有 助 于 将 输入 转换 成 更 适合 标准 激活 函数 使 用 的 范围 。 
标准 化 有 助 于 输入 和 目标 之 间 的 关系 保持 尽 可 能 地 简单 和 本 地 化 。 记 住 ， 这 
仅仅 用 于 实 值 输入 ， 不 要 对 独 热 (分 类 ) 输入 这 样 做 。 


























基于 RNN 训练 和 调 优 方式 的 不 同 ， 存 在 着 一 些 基本 的 变 体 。 
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7.2.2 ”输出 层 与 RnnOutputLayer 
RNN 的 输出 有 三 个 维度 : 


小 批量 大 小 (样本 数 ) 
。 输出 的 大 小 〈 列 数 ) 
时 间 序 列 长 度 


假设 DL 条 中 的 矩阵 表示 是 基于 INDArray 类 的 ， 这 些 值 与 索引 模式 (i, j,k) 相 匹配 ， 如 
表 7-3 所 示 。 

表 7-3: 理解 RNN 输 入 矩阵 中 的 变量 

说 明 

小 批量 中 样本 的 索引 

每 个 时 间 步 中 列 的 索引 

时 间 步 的 索引 


在 DL4J 中 ,许多 RNN 中 以 RnnoutputLayer 为 最 终 层 ， 用 于 下 列 任务 : 

回归 

分 类 
RnnOutputLayer 执行 以 下 任务 : 

分 数 计算 ; 

基于 给 定 损 失 函 数 的 误差 计算 (预测 值 与 实际 值 )。 
RnnOutputLayer 在 功能 上 类 似 于 DL4J 中 用 于 普通 前 馈 网 络 的 标准 0utputLayer， 但 它 可 以 处 
里 三 维 输出 。RnnoutputLayer 的 配置 遵循 与 其 他 层 相 同 的 设计 。 对 于 分 类 ，MultiLayerNetwork 
中 的 最 后 一 层 设 置 为 RnnoutputLayer， 如 示例 7-2 所 示 。 


示例 7-2 ”RnnoutputLayer 的 配置 
.Layer(2，new RnnOutputLayer .BuiLLder(LossFunction.MCXENT) 

.activation(Activation.SOFTMAX) 

.weightInit(WeightInit.XAVIER) 

.NIn(prevLayerSize) 

.NOut(nOut) 

.build()) 
为 了 更 好 地 了 解 这 一 层 的 作用 ， 请 参阅 第 5 章 中 RNN 的 示例 ， 那 个 示例 对 传感器 读数 进 
行 了 分 类 。 


7.2.3 训练 网 络 


RNN 训练 的 计算 成 本 高 。 通 常情 况 下 ，SGD 是 一 种 很 好 的 适用 于 RNN 的 基线 优化 算法 。 
研究 表明 ，Hessian-free 优化 也 有 助 于 训练 RNN。 
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1. 初始 化 权重 
初始 化 权重 在 RNN 训练 中 很 重要 。 实 践 证 明 ， 对 权重 的 良好 初始 化 能 够 创建 在 足够 长 的 
距离 上 传递 信息 的 隐藏 单元 ， 以 便 对 长 期 依赖 任务 建 模 。 


对 于 DL4J 中 的 大 多 数 RNN 层 ， 推 荐 使 用 Xavier 初始 化 5， 如 下 面 的 代码 片段 所 示 : 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 

.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 

.learningRate(0.1) 

.rmsDecay(0.95) 

.Seed(12345) 

.regularization(true) 

.12(0.001) 

.weightInit(WeightInit.XAVIER) 


2. 时 间 反 向 传播 

当 循 环 网 络 处 理 含 许多 时 间 步 的 长 序列 时 ， 基 于 时 间 的 截断 反 向 传播 (BPTT) 表现 得 很 
好 。BPTT 是 标准 反 向 传播 算法 在 RNN 上 的 扩展 (如 第 4 章 所 介绍 的 )。 截 断 BPTT 降低 
了 RNN 中 每 个 参数 更 新 的 计算 复杂 度 。 从 下 面 的 代码 示例 中 可 以 看 出 ， 在 DL4J 中 使 用 截 
断 BPTT 和 RNN 是 很 容易 的 。 


.backpropType(BackpropType.TruncatedBPTT) 
.tBPTTForwardLength(100) 
.tBPTTBackwardLength(100) 


这 个 添加 到 网 络 中 的 设置 会 使 训练 使 用 截断 BPTT。 从 代码 中 可 以 看 出 ， 前 向 和 反 向 传递 
的 长 度 分 别 通过 各 自 的 参数 来 设置 。 以 下 是 在 DL4J 中 使 用 它 的 其 他 注意 事项 。 
。 DL4J 将 默认 使 用 完整 的 BPTT， 除 非 指定 截断 BPTT。 
通常 将 长 度 选项 设置 在 50 到 200 个 时 间 步 之 间 (当然 要 看 具体 的 应 用 程序 )。 
一 前 向 和 反 向 的 时 间 步 长 度 往往 相同 。 
一 反 向 时 间 步 可 以 更 短 ， 但 不 能 更 长 。 
截断 BPTT 的 时 间 步 的 长 度 不 能 超过 输入 时 间 序 列 。 
3. 正则 化 
Dropout 是 一 种 对 RNN 使 用 正则 化 的 常用 方法 。 在 RNN 中 ，Dropout 仅 应 用 于 LSTM ( 非 
循环 连接 ) 中 的 连接 子 集 ， 这 种 Dropout 变 体 被 证 明 是 有 用 的 。 在 DL4J 中 为 RNN 实现 的 
Dropout 仅 对 输入 连接 / 激活 使 用 ， 而 不 对 循环 连接 使 用 。 


标准 Dropout 与 递归 神经 网 络 
标准 Dropout 已 被 证 明 不 能 很 好 地 与 RNN 一 起 工作 ， 因 为 循环 放大 了 噪声 ， 


这 会 损害 学 习 过 程 。 












































RNN 比 多 层 感 知 器 网 络 对 学 习 率 和 动量 的 设置 更 敏感 。 








注 5: RNN 的 正 交 权重 初始 化 也 显示 出 很 好 的 前 景 。 
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7.2.4 调试 LSTM 的 常见 问题 

虽然 神经 网 络 的 调 优 需要 大 量 试 错 ， 但 是 经 过 一 段 时 间 后 ， 一 些 模式 会 有 助 于 更 快 地 对 网 
络 调 优 。 有 太 多 人 试图 通过 育 目 改变 设置 来 调 优 网络 ， 这 不 是 最 佳 的 做 法 。 有 时 梯度 会 变 
得 非常 大 (这 被 称 为 “梯度 爆炸 ” ， 在 更 新 的 平均 值 图 像 上 也 能 看 到 这 一 变化 ) 。 梯 度 爆炸 
的 一 个 副作用 是 在 多 个 小 批量 上 损失 函数 的 值 会 增加 。 这 里 真正 的 危险 在 于 ， 对 于 大 的 梯 
度 值 ， 最 终 需 要 对 参数 做 大 的 更 改 ， 这 有 可 能 破坏 模型 学 到 的 特征 。 我 们 设置 梯度 裁剪 或 
梯度 再 规范 化 来 避免 这 一 问题 。 梯 度 爆 炸 问 题 是 普通 RNN 的 一 个 向 见 的 缺陷 。 
































梯度 爆炸 和 梯度 消失 
众所周知 ，RNN 除了 “梯度 爆炸 ”之 外 ， 还 存在 “梯度 消失 ”问题 。 当 梯度 变 得 太 小 
并 且 难 以 在 输入 数据 集 的 结构 中 对 长 期 依赖 (10 个 时 间 步 或 者 更 多 ) 建 模 时 ， 就 会 出 
现 梯 度 消 失 问 题 。 
解决 RNN 中 梯度 消失 问题 最 有 效 的 方法 是 使 用 DL4J 支持 的 RNN 的 LSTM 变 体 。 
处 理 这 一 问题 的 其 他 方法 包括 : 


。 在 未 折 有 合流 的 图 (时 延 神经 网 络 ) 中 组 合 短路 径 和 长 路 径 ; 
。 leaky 单元 和 不 同时 间 单 元 的 层次 结构 ; 
。 GRU; 
。 更 好 的 优化 方法 ; 
。 梯度 裁剪 (用 于 梯度 爆炸 ) ; 
。 促进 信息 流 的 正则 化 ; 
使 用 LI/L2 惩罚 。 











7.2.5 填充 与 掩 码 
填充 指 将 零 (填充 ) 添加 到 任何 比 小 批量 中 最 长 的 时 间 序 列 短 的 时 间 序 列 的 末尾 。 这 使 得 
训练 数据 成 为 矩形 数组 (和 矩阵 )， 当 在 同一 个 小 批量 中 训练 不 同 长 度 的 时 间 序 列 时 ， 这 样 
的 数组 是 训练 所 需 的 。 掩 码 涉 及 两 个 附加 数组 ， 用 于 指示 每 个 输入 或 输出 最 初 是 存在 于 输 
入 中 还 是 填充 值 中 。 
DL4J 中 的 填充 和 掩 码 支持 以 下 循环 模型 训练 的 变 体 : 
。 一 对 多 

多 对 一 

可 变 长 度 时 间 序 列 (在 同一 个 小 批量 中 ) 
图 7-3 给 出 了 其 中 的 每 一 个 示例 。 
































注 6: LSTM 有 助 于 解决 梯度 消失 问题 ， 但 不 能 从 根本 上 解决 梯度 爆炸 问题 。 
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图 7-3: RNN 训练 的 不 同 变 
填充 和 掩 码 对 含有 不 是 在 每 个 时 间 步 中 都 出 现 的 输入 或 输出 的 RNN 是 有 用 的 。 


填充 和 掩 码 的 实用 性 
在 没有 掩 码 和 填充 的 情况 下 ， 我 们 只 能 处 理 多 对 多 的 训练 场景 。 这 种 场景 中 
所 有 输入 记录 的 长 度 都 完全 相同 ， 并 且 在 所 有 的 时 间 步 上 都 有 输入 和 输出 。 



































填充 和 掩 码 在 空间 输入 中 的 应 用 

在 DL4J 中 训练 RNN 涉及 以 下 与 小 批量 形状 有 关 的 参数 。 

。 小 批量 大 小 

。 输入 尺寸 

。 时 间 序 列 长 度 

填充 数组 包含 以 下 用 于 输入 和 输出 的 参数 。 

。 小 批量 大 小 

。 时 间 序 列 长 度 

二 维 数组 中 每 个 值 为 0 或 1， 表示 在 填充 之 前 的 输入 数据 中 ， 序 列 中 给 定时 间 步 长 最 初 缺 
失 或 存在 。 用 于 输入 和 输出 数据 的 掩 码 数 组 是 分 开 存 储 的 。 

如 果 使 用 所 有 值 为 1 的 掩 码 数 组 ， 那 么 它 与 根本 没有 掩 码 数组 的 效果 完全 相同 。 在 多 对 
一 的 情况 下 ， 只 对 输出 有 单一 的 掩 码 数 组 。 在 DL4J 中 ， 这 些 掩 码 数 组 是 在 数据 导入 阶段 
(如 SequenceRecordReaderDatasetIterator) 创建 的 ， 并 在 DataSet 对 象 中 表示 。DL4J 中 
的 MultiLayerNetwork 对 象 知道 在 训练 时 如 何 处 理 可 能 存在 的 掩 码 数组 。 


7.2.6 拓 码 评估 与 评分 


在 对 RNN 进行 评分 和 评估 时 ， 也 就 是 在 评估 模型 的 准确 度 时 ， 使 用 掩 码 数组 。 在 多 对 一 
的 情况 下 ， 每 个 样本 只 有 一 个 输出 ， 在 评估 时 需要 考虑 到 这 一 点 。 


1. 利用 评估 类 进行 分 类 
在 评估 时 使 用 输出 掩 码 数 组 ， 将 其 传递 给 Evaluation 对 象 ， 如 示例 7-3 所 示 。 
示例 7-3 评估 设置 


Evaluation.evalTimeSeries(INDArray labels, INDArray predicted, INDArray outputMask) 


表 7-4 是 对 示例 7-3 中 每 个 变量 的 说 明 。 
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变量 说 明 维度 
labels 训练 数据 的 实际 输出 三 维 
predicted 从 网 络 生成 标签 三 维 
outputMask ”用 于 输出 的 掩 码 数 组 二 维 
需要 注意 ， 在 评估 时 不 需要 输 掩 码 数 组 ， 因 为 只 有 网 络 的 输出 与 评 佑 有关。 








2. 使 用 MultiLayerNetwork 对 新 数据 进行 评分 
也 可 以 使 用 掩 码 数组 计算 模型 的 得 分 。 得 分 计算 不 同 于 以 前 的 做 法 ， 现 在 计算 的 是 损失 国 
数 的 值 ， 而 不 是 度量 值 ， 如 准确 度 或 F1。 不 过 在 这 两 种 情况 下 ， 应 该 对 那些 实际 存在 的 时 
间 步 而 非 那些 只 是 填充 的 时 间 步 进行 评分 /评估 。 可 以 使 用 MultiLayerNetwork 类 来 对 时 间 
序列 数据 进行 评分 ， 如 下 面 的 代码 示例 所 示 : 


MultiLayerNetwork.score(DataSet) 


正如 前 面 DL4J 中 的 掩 码 示例 一 样 ， 如 果 DataSet 包含 输出 掩 码 数组 ， 它 将 被 自动 应 用 于 
计算 网 络 的 得 分 (损失 函数 )。 


7.2.7 ”循环 网 络 架 构 的 变 体 

有 些 情况 下 ， 用 户 可 能 希望 结合 不 同类 型 的 架构 层 来 对 不 同 结构 的 数据 建 模 ， 例 如 视频 
数据 。 在 某 些 情况 下 ， 我 们 会 结合 LSTM 和 CNN 层 来 对 图 像 序列 〈 例 如 视频 帧 ) 建 模 。 
DL4J 提供 特殊 的 预 处 理 器 类 来 帮助 建立 这 些 架 构 的 变 体 ， 如 CnnToRnnPreProcessor 和 


FeedForwardToRnnPreprocessor。 











你 可 以 手动 添加 RNN 的 预 处 理 器 ， 但 在 许多 情况 下 ， 它 们 将 由 网 络 自动 
添加 。 





7.3” 受 限 玻 尔 兹 曼 机 


受 限 玻 尔 兹 曼 机 (RBM) 是 一 种 神经 网 络 ， 通 过 将 输入 数据 映射 到 隐藏 状态 ， 然 后 尝试 从 
隐藏 状态 重建 输入 ， 以 无 监督 的 方式 从 数据 集 学 习 特 征 。 在 这 一 点 上 ， 它 类 似 于 无 监督 训 
练 的 其 他 模型 ， 例 如 自动 编码 器 ( 降 噪 、 压 缩 和 变 分 的 变 体 )， 尽 管 RBM (对 比 散 度 ) 的 
训练 过 程 与 自动 编码 器 相 比 有 很 大 不 同 。 


通常 RBM 重点 应 用 于 以 下 领域 。 


。 DBN 的 无 监督 特征 学 习 。 
。 推荐 引擎。 























MNIST 实例 

以 学 习 过 的 MNIST 数据 集 为 例 ， 网 络 的 输入 层 有 784 个 输入 神经 元 ， 隐 藏 
层 有 较 少 数量 的 神经 元 。 在 这 个 例子 中 ， 选 择 一 个 有 500 个 神经 元 的 隐藏 层 
(大 约 是 可 见 输入 层 的 三 分 之 二 )。 对 于 第 二 个 隐藏 层 ， 设 置 神经 元 数量 为 
250 个 。 





下 面 考 虑 一 下 如 何 对 MNIST 之 外 的 问题 设置 隐藏 层 神经 元 数量 。 


7.3.1 隐藏 层 神 经 元 与 可 用 信息 建 模 

这 里 不 使 用 判别 式 机 器 学 习 中 的 做 法 。 在 判别 式 学 习 中 ， 训 练 实例 约束 模型 参数 ， 要 求 其 
数量 等 于 指定 标签 所 需 的 位 数 。 

言 息 和 样本 标签 

标签 最 多 只 保留 少量 信息 ， 所 以 这 不 会 带 来 巨大 的 工作 量 。 在 某 些 情况 下 我 
们 使 用 比 训练 用 例 更 多 的 参数 ， 在 所 构建 的 模型 中 ， 这 会 产生 严重 的 过 拟 合 
(有 可 能 ， 取 决 于 正则 化 )。 





























输入 向 量 中 的 位 数 可 能 比 用 于 表示 标签 的 位 数 大 几 个 数量 级 。 从 中 可 以 看 出 ， 数 据 输入 向 
量 比 标签 有 更 多 的 信息 要 学 习 。 

使 用 隐 含 在 输入 数据 中 的 原始 信息 ， 我 们 可 以 利用 这 种 结构 的 优势 来 更 高 效 地 提取 特征 或 
允许 之 后 在 管道 中 〈 当 被 用 作 DBN 的 一 部 分 时 ) 进行 更 高 效 的 判别 分 类 。 我 们 想 看 看 有 
多 少 信息 可 用 。 训 练 记录 的 信息 量 将 影响 隐藏 单元 数量 的 选择 。 

快速 了 解 样 本 

训练 图 像 数 量 : 10 000。 

每 个 图 像 的 像素 : 1000。 

投射 的 全 局 连接 隐藏 单 元 : 1000。 



































可 以 看 出 ， 这 个 例子 中 隐藏 (全 局 连接 的 ) 单元 的 数量 与 输入 向 量 或 图 像 的 信息 量 直 接 相 
关 。 在 没有 全 局 连接 或 使 用 权重 共享 方案 的 RBM 网 络 中 ， 可 以 使 用 更 多 的 单元 。 下 面 展 
示 一 个 为 RBM 选择 特定 数量 的 隐藏 单元 的 启发 式 做 法 。 

隐藏 单元 数 的 选择 

为 RBM 选择 隐藏 单元 的 数量 时 ， 要 重点 关心 的 是 避免 过 拟 合 。 在 这 个 限制 
下 ， 启 发 式 的 做 法 可 以 将 可 见 单位 的 数量 乘 以 0.75 来 得 到 隐藏 单元 的 数量 。 

如 果 稀 疏 目 标 很 小 ， 就 可 以 避免 使 用 更 多 的 隐藏 单元 。 对 于 输入 数据 集 包含 
大 量 非常 相似 的 输入 记录 的 情况 ， 也 可 以 使 用 更 少 的 参数 。 
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7.3.2 ”使 用 不 同 的 单元 
开始 接触 RBM 和 DBN 时 ,通常 从 RBM 中 的 二 元 (或 逻辑 ) 单元 开始 。 只 靠 这 些 单元 的 
用 例 训练 设置 也 许 不 能 很 好 地 对 数据 建 模 ， 还 有 其 他 可 用 于 RBM 隐藏 单元 和 可 见 单元 的 
选项 。 以 下 是 对 各 种 情况 的 数据 建 模 的 单元 类 型 。 

多 项 式 可 见 单元 

高 斯 可 见 单元 
。 二 元 单元 
。 ReLU 
多 项 式 单 元 用 于 主题 建 模 、 构 建 推荐 系统 ， 以 及 使 用 RBM 构建 分 类 器 (构建 分 类 器 时 ， 
在 顶部 抛 出 一 个 在 无 监督 的 预 训练 之 后 用 于 分 类 的 输出 层 )。 与 二 元 可 见 单元 相 比 ， 多 项 
式 可 见 单元 用 softmax 函数 代替 逻辑 函数 ， 并 使 用 伯 努 利 隐 藏 单元 。 


当 处理 图 像 或 语音 时 ， 二 元 可 见 单元 给 出 的 特征 表示 较 差 。 在 这 种 情况 下 可 使 用 高 斯 单 
元 ， 然 而 隐藏 单元 会 继续 使 用 二 元 单元 ， 因 为 对 这 两 种 情况 使 用 高 斯 单元 将 导致 训练 结果 
更 不 稳定 。 
在 图 像 和 语音 应 用 中 应 使 用 高 斯 单元 ， 因 为 二 元 单元 在 这 些 场景 中 往往 表现 不 佳 ， 我 们 需 
要 比 二 元 单元 更 低 的 学 习 率 。 在 某 些 情况 下 ， 这 些 单 元 在 学 习 过 程 中 的 表现 不 稳定 。 在 处 
绅 稀 玻 数据 时 ， 我 们 会 使 用 二 元 单元 。 

当 处 理 连 续 数 据 时 ， 我 们 使 用 ReLU。ReLU 单元 使 用 的 参数 数量 与 二 元 单元 类 似 ， 但 
ReLU 单元 更 具 表 现 力 。ReLU 单元 通常 使 用 比 二 元 单元 更 低 的 学 习 率 ， 以 便 在 训练 期 间 稳 
定性 更 好 。 表 7-5 是 根据 输入 数据 查找 单元 类 型 的 快速 索引 表 。 
表 7-5，RBM 单 元 类 型 

















































































































嵌 







































































数据 类 型 可 视 单 元 类 型 隐藏 单元 类 型 

文本 高 斯 (神经 词 修 入 ) 、 二 元 元 〈 词 荧 的 情况 ) ReLU (神经 词 府 入) 、 二 元 ( 词 袋 的 情况 ) 

音频 /时 间 序 列 高 斯 (连续 的 情况 )、 二 元 (0-1 的 情况 ) ”ReLU (连续 的 情况 )、 二 元 (0-1 的 情况 ) 

图 像 /视频 高 斯 ( 零 均 值 和 单位 方差 的 情况 )、 二 元 ReLU ( 零 均 值 和 单位 方差 的 情况 )、 二 元 
(0-1 的 情况 ) (0-1 的 情况 ) 


7.3.3 用 RBM 正 则 化 


正则 化 是 机 器 学 习 中 的 一 个 重要 课题 ， 因 为 需要 控制 参数 向 量 中 权重 的 大 小 。 在 RBM 中 
使 用 正则 化 的 一 个 主要 原因 是 : 在 训练 的 早期 ， 有 时 值 很 大 的 权重 和 相关 隐藏 单元 的 值 会 
被 “ 卡 ” 在 打开 或 关闭 的 状态 。 正 则 化 有 助 于 训练 过 程 “ 解 开 ” 这 些 单元 。 

对 于 RBM， 需 要 为 二 元 隐藏 单元 的 活动 设置 一 个 稀 下 目 标 。 这 是 对 二 元 隐藏 单元 有 效 的 
期 望 概率 ， 这 个 因子 通常 小 于 1.0。 

当 训 | 练 RBM 时 ， 好 的 做 法 是 设置 L2 先 验 权 重 成 本 系数 和 权重 衰减 在 0.01 到 0.000 01 的 
范围 内 。 对 于 RBM， 权 重 成 本 通常 不 应 用 于 隐藏 和 可 见 的 偏 置 ， 因 为 它们 的 数量 较 少 ， 
并 且 过 拟 合 的 可 能 性 较 小 。 在 某 些 情况 下 ， 我 们 希望 偏 置 变 得 更 大 ， 因 此 在 这 里 应 用 权重 






































成 本 就 没什么 意义 了 。 对 于 RBM 的 权重 成 本 ， 一 个 很 好 的 经 验 法 则 是 以 0.0001 开始 。 权 
重 成 本 的 微小 差异 可 能 不 会 改变 训练 过 程 。 实 践 表明 ，Dropout 应 用 于 RBM 也 很 高 效 。 


7.4 DBN 


DBN 涉及 两 个 阶段 的 训练 过 程 : 预 训练 和 调 优 。 预 训练 主要 涉及 从 输入 数据 中 学 习 高 级 特 
性 ， 以 便 更 好 地 初始 化 前 馈 网 络 ， 为 调 优 阶段 提供 一 个 好 的 起 点 。DBN 在 预 训练 阶段 使 用 
RBM 集合 来 学 习 特 征 。 第 4 章 详细 介绍 了 DBN 和 RBM 之 间 的 相互 作用 ， 可 回顾 第 4 章 
了 人 解 更 多 细 市 。 


通常 使 用 标准 差 为 0.01 左右 的 零 均 值 高 斯 分 布 的 小 的 随机 值 来 初始 化 DBN 的 权重 。 随 着 
初始 值 变 大 ， 初 始 学 习 会 更 快 ， 但 副作用 是 最 终 得 到 的 模型 可 能 不 好 。 将 隐藏 的 偏 置 值 设 
置 为 0 通常 是 一 种 好 的 做 法 。 

训练 神经 网 络 时 ， 更 具体 说 来 ， 训 练 DBN 时 ， 学 习 率 通常 在 0.001 到 0.1 的 范围 内 。 学 习 
率 过 高 的 一 个 副作用 是 重建 误差 和 权重 通常 显著 增加 。 在 大 多 数 情况 下 ， 这 种 效应 产生 的 
模型 较 差 。 














设置 学 习 率 可 视 化 
使 用 DBN 时 ， 设 置 学 习 率 的 一 个 好 方法 是 查看 权重 以 及 权重 更 新 值 的 直方 
图 。 权 重 更 新 值 应 该 是 权重 值 的 10” 倍 。 











7.4.1 利用 动量 

在 某 些 情况 下 ， 动 量 可 以 使 学 习 过 程 将 参数 移动 到 不 是 最 陡 的 、 正 常 的 方向 。 这 使 得 学 习 
过 程 探索 搜索 空间 中 某 些 可 能 具有 相反 梯度 的 相 邻 区 域 ， 而 不 必 在 返回 之 前 等 待 梯度 增加 
的 全 部 效果 。 它 使 得 随 着 时 间 推 移 ， 学 习 方 向 的 变化 更 平 请 ， 避 免 了 不 稳定 的 振荡 。 

在 预 训练 阶段 ， 可 以 调整 对 比 散 度 的 动量 来 训练 RBM。 通 常 从 0.5 的 动量 开始 设置 ， 在 重 
建 误差 稳定 下 来 后 将 其 增加 到 0.9 左右 。 如 果 这 对 重建 误差 中 造成 大 大 的 影响 ， 那 么 将 学 
习 率 降低 ， 直 到 它 稳定 为 止 。 
在 训练 开始 阶段 设置 动量 时 ， 考 虑 到 随机 的 初始 参数 值 可 能 使 搜索 空间 中 的 起 始 位 置 不 
好 ， 而 将 值 设 为 0.5 是 一 个 好 的 起 点 。 随 着 时 间 推 移 ， 良 好 的 实现 会 将 动量 增加 到 0.9。 当 
重建 误差 上 升 或 接近 终止 条 件 时 ， 动 量 将 开始 下 降 到 0.0。 


7.4.2 ”使 用 正则 化 


前 一 市 讲解 RBM 的 正则 化 时 ， 讨 论 了 使 用 正则 化 (以 及 将 它 扩 展 到 预 训练 DBN) 的 主要 
原因 。 

可 以 把 RBM 中 的 无 监督 预 训练 看 作 正则 化 的 一 种 形式 。 无 监督 预 训练 相当 于 对 参数 空 
间 的 一 个 约束 ， 算 法 可 以 在 该 区 域内 扫描 。 事 实 表明 ， 当 有 足够 的 神经 元 或 参数 时 ， 无 
监督 的 预 训 练 是 一 个 依赖 数据 的 正则 化 器 ， 然 而 无 监督 的 预 训 练 也 被 证 明 在 某 些 情况 下 
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会 损害 泛 化 。 这 在 训练 数据 集 相 对 较 小 时 容易 发 生 《〈 其 中 的 “小 ” 指 少 于 100 000 行 的 


稀疏 性 与 DBN 

有 时 查看 不 活跃 的 特征 是 提高 模型 表现 的 好 方法 。 可 以 设置 稀 玻 目标 ， 即 二 
元 隐藏 单元 话 动 的 概率 (例如 稀疏 设置 远 小 于 1.0)。 研 究 表明 ， 好 的 RBM 
稀 玻 目标 值 在 0.01 到 0.1 之 间 。 这 个 因子 的 衰减 率 应 设置 在 0.9 到 0.99 之 间 。 








Dropout 
当 使 用 Dropout 进行 预 处 理 时 ， 可 使 用 没有 权重 约束 的 较 低 的 学 习 率 来 避免 预 处 理 技术 所 
发 现 的 特征 检测 器 丢失 。Dropout 在 DBN 的 调 优 阶段 也 是 有 用 的 。 
MNIST 和 Dropout 
在 一 个 已 公开 的 对 MNIST 数据 集 使 用 Dropout 的 实践 中 ， 隐 藏 层 中 50% 
的 Dropout 设置 比 不 使 用 Dropout 的 表现 更 好 。 对 输入 单元 执行 额外 20% 
的 Dropout 能 够 进一步 提高 表现 。 输 入 单元 上 20% 和 隐藏 单元 上 50% 的 
Dropout 设置 常 被 证 明 对 于 数据 集 是 最 优 的 。 




















7.4.3 ”确定 隐藏 单元 的 数量 

在 考虑 DBN 隐藏 单元 的 数量 时 ， 面 临 的 主要 问题 是 描述 每 个 输入 训练 向 量 需 要 多 少 位 
(才能 产生 一 个 好 的 模型 ) 。 

在 这 种 场景 中 ， 面 临 的 主要 问题 是 过 拟 合 。 之 前 讨论 过 控制 方法 了 ， 为 了 确定 之 后 的 层 中 
隐藏 单元 的 数量 ， 建 议 在 之 前 数量 的 基础 上 使 参数 数量 小 一 个 数量 级 。 




















纽约 ， 老 圣 乔 ， 阿 尔 伯 克 基 ， 新 墨西哥 ， 
这 台 旧 钻机 喻 喻 作 响 ， 她 做 得 很 好 。 

如 果 有 人 想 知 道 这 是 怎么 一 回 事 ， 

告诉 他 们 我 在 寻找 那 条 长 长 的 白 线 的 尽头 。 


一 一 美国 乡村 歌手 Sturgill Simpson， 歌 曲 Zong White Line 


Da A 旦 ~ 
8.1 机 器 学 习 中 的 向 量化 方法 
本 章 旨 在 介绍 如 何 将 机 器 学 习 领 域 中 使 用 的 各 种 数据 向 量化 。 你 可 能 疑惑 为 什么 一 本 关于 
次 度 学 习 的 书 会 介绍 向 量化 ， 主 要 原因 是 大 多 数 机 器 学 习 图 书 只 关注 算法 本 身 ， 而 较 少 关 
注 数据 挖掘 的 完整 生命 周期 。 我 们 希望 用 机 器 学 习 工 具 尽 可 能 快 地 试验 数据 ， 并 且 不 会 花 
费 太 多 时 间 在 文本 数据 的 自 定义 向 量化 等 方面 。 
在 与 企业 客户 合作 的 过 程 中 ， 我 们 有 过 这 样 的 经 历 : 所 探讨 的 是 文本 分 类 技术 的 实现 ， 但 
是 由 于 长 时 间 讨 论 将 文本 转换 为 向 量 的 基本 原则 而 导致 工作 偏离 轨道 。 公 司 有 很 多 简单 
的 数据 源 ， 比 如 可 以 导出 为 CSV 格式 的 电子 表格 ， 但 是 这 样 的 数据 仍然 需要 转换 为 向 量 。 
我 们 还 试图 向 客户 解释 文本 数据 能 以 无 数 种 方式 被 向 量化 。 根 据 涉及 的 工具 和 期 望 的 分 类 
算法 的 不 同 ， 客 户 可 能 没有 那 种 与 实际 统计 建 模 本 身 无 关 的 广博 的 编程 经 验 ， 也 没有 尝试 
将 文本 向 量化 的 好 方法 。 

原始 数据 与 自动 特征 学 习 

第 3 章 探讨 过 ， 深 度 学 习 的 一 个 重要 特点 是 从 特征 工程 转向 自动 特征 学 习 。 

自动 特征 学 习 是 深度 学 习 的 一 个 有 用 特性 ， 但 是 仍然 需要 将 原始 数据 转换 成 

工具 可 以 操作 的 形式 ， 原 始 数 据 向 量化 技术 能 够 做 到 这 一 点 。 
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多 年 以 来 ， 一 个 显而易见 的 事实 是 ， 虽 然 向 量化 技术 〈 连 同 数据 处 理 过 程 本 身 ) 是 数据 科 
学 过 程 的 核心 ， 却 被 多 次 无 情 忽 略 。 在 创作 本 书 时 ， 我 们 有 一 种 很 强烈 的 使 命 感 : 以 一 种 
既 能 完成 深度 学 习 建 模 过 程 ， 又 不 因 那 些 笨 拙 的 创建 向 量 的 辅助 编程 练习 而 使 你 分 心 的 方 
式 ， 为 你 的 向量 化 处 理 打下 一 个 坚实 的 基础 。 另 一 方面 ， 在 本 书 中 随 着 从 理论 转向 实践 ， 
我 们 会 过 渡 到 : 重点 在 以 易于 理解 的 方式 处 理 向 量 ， 直 接 为 深度 学 习 模 型 提供 大 量 高 质量 
的 数据 。 希 望 你 尽快 参与 对 数据 的 建 模 ， 弥 补 这 个 差距 是 解决 此 问题 的 一 个 很 好 的 办 法 。 


使 用 标准 的 机 器 学 习 数 据 集 是 显示 其 不 便 性 的 一 个 很 好 的 例子 。 机 器 学 习 的 向 量化 阶段 可 
能 持续 数 小 时 到 数 天 ， 这 会 影响 你 对 编程 和 向 量化 的 感受 。 这 个 阻抗 因素 往往 会 使 许多 新 
用 户 对 开始 进行 统计 模型 的 工作 望而却步 。 


8.1.1 为 什么 数据 需要 向 量化 

在 机 器 学 习 和 数据 科学 的 工作 过 程 中 ， 需 要 分 析 所 有 类 型 的 数据 。 一 个 关键 的 需求 是 能 够 
获取 每 个 数据 类 型 并 将 其 表示 为 数值 向 量 (或 者 在 某 些 情况 下 表示 为 多 维 数组 ) 。 神 经 网 
络 仍然 需要 将 输入 数据 表示 为 向 量 和 和 矩阵 ， 因 为 它 不 能 直接 在 文本 、 图 形 和 其 他 非 向 量 / 
和 矩阵 形式 的 数据 上 工作 。 


处 理 向 量化 有 许多 不 同 的 方法 ， 不 同 的 预 处 理 步骤 给 输出 模型 带 来 的 效率 也 不 同 。 通 常 建 
模 练习 取决 于 输入 数据 向 量化 的 好 坏 程 度 。 输 入 数据 可 以 有 多 种 形式 ， 包 括 : 
。 列 式 CSV 数据 
。 文本 文档 
。 图 像 数 据 
。 音频 数据 
。 视频 数据 
顺序 数据 




















































































































































































































下 面 的 输入 数据 是 加 州 大 学 尔 湾 分 校 维 护 的 原始 刻 尾 花 数 据 集中 的 列 式 CSV 数据 的 样本 。 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
7.0,3.2,4.7,1.4,Iris-versicolor 
6.4,3.2,4.5,1.5,Iris-versicolor 
6.9,3.1,4.9,1.5,Iris-versicolor 
5.5,2.3,4.0,1.3,Iris-versicolor 
6.5,2.8,4.6,1.5,Iris-versicolor 
6.3,3.3,6.0,2.5,Iris-virginica 
5.8,2.7,5.1,1.9,Iris-virginica 
7.1,3.0,5.9,2.1,Iris-virginica 


儿童 绘本 书 Go Dogs, Go! 中 的 一 段 话 可 以 作为 文本 文档 的 一 个 例子 。 


Go, Dogs. Go! 
Go on skates 
or go by bike. 


这 两 种 情况 都 涉及 不 同类 型 的 原始 数据 ， 但 是 都 需要 某 种 程度 的 向 量化 才能 成 为 机 器 学 习 
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需要 的 形式 。 机 器 学 习 算 法 的 输入 数据 需要 是 连续 的 稀 玻 向 量 格式 ， 如 下 所 示 : 


:0.7500000000000001 2:0.41666666666666663 3:0.702127659574468 
.5652173913043479 

:0.6666666666666666 2:0.5 3:0.9148936170212765 4:0.6956521739130436 
:0.45833333333333326 2:0.3333333333333336 3:0.8085106382978723 
7391304347826088 

:0.1666666666666665 2:1.0 3:0.021276595744680823 

:1.0 2:0.5833333333333334 3:0.9787234042553192 4:0.8260869565217392 
:0.3333333333333333 3:0.574468085106383 4:0.47826086956521746 
0.7083333333333336 2:0.7500000000000002 3:0.6808510638297872 
5652173913043479 

0.916666666666667 2:0.6666666666666667 3:0.7659574468085107 
5652173913043479 

:0.08333333333333343 2:0.5833333333333334 3:0.021276595744680823 
0.6666666666666666 2:0.8333333333333333 3:1.0 4:1.0 
0.9583333333333335 2:0.7500000000000002 3:0.723404255319149 
5217391304347826 

:0.7500000000000002 


将 原始 数据 转换 成 适合 机 器 学 习 的 向 量 的 过 程 分 为 两 个 阶段 : 

(1) 向 量化 

(2) 规范 化 

稍 后 会 介绍 这 两 个 阶段 。 我 们 将 在 深度 学 习 的 以 下 三 个 关键 领域 中 研究 数据 向 量化 和 规范 
化 的 概念 。 


。 序列 数据 

。 图 像 数 据 

。 文本 数据 

特别 指出 这 些 数据 类 型 ， 是 因为 它们 与 深度 学 习 的 关系 。 本 书 介 绍 过 RNN 善于 处 理 序列 
数据 ， 这 说 明 关 键 的 序列 向 量化 技术 是 有 价值 的 。 深 度 学 习 在 CNN 的 图 像 分 析 领 域 中 也 
显示 了 它 的 价值 ， 所 以 我 们 会 研究 图 像 向 量化 处 理 的 子 主题 。 本 章 最 后 总 结 文本 向 量化 方 
法 ， 介 绍 如 何 使 用 Word2Vec 进行 向 量化 。 


深度 学 习 与 数据 准备 的 变化 

实践 证 明 ， 次 度 学 习 可 以 减少 这 些 特定 的 特征 工程 的 预 处 理 步 台 。 数 据 仍然 
需要 转换 成 向 量 形式 ， 但 是 深度 学 习 在 学 习 数 据 集结 构 的 过 程 中 擅长 执行 特 
征 选 择 和 降 维 。 


OPOOOPBPOPOOOOPOOPe 
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过 去 十 年 中 ， 许 多 机 器 学 习 实 践 者 倾向 于 使 用 专家 领域 知识 手工 处 理 输入 向 量 数据 集 的 特 
征 。 专 家 领域 知识 指 的 是 对 数据 如 何 生 成 ， 或 数据 产 如 何 与 现实 世界 互 操作 来 对 现实 生活 
中 产生 特定 影响 的 深入 理解 。 

本 章 稍 后 将 介绍 ， 属 性 较 少 的 数据 集 是 手工 特征 工程 的 理想 数据 ， 但 是 较 大 的 数据 集 ， 如 
文本 文档 、 图 像 或 音频 文件 等 ， 和 需要 用 工法 来 解决 。 在 其 他 情况 下， 常见 的 辣 量化 技术 可 
以 自动 生成 向 量 ， 这 主要 是 由 于 源 数 据 (大 量 文 本 ) 的 复杂 性 使 任务 变 得 困难 。 算 法 向 量 














化 的 例子 包括 核 哈 希 、 词 频 - 逆 文 本 频率 (TF-IDF) 和 Word2Vec。 
下 面 是 从 原始 数据 建立 模型 时 需要 考虑 的 一 些 主要 事项 。 


。 我 们 处 理 的 是 怎样 的 源 数据 ? 

。 我 们 想 用 这 个 数据 训练 怎样 的 模型 ? 

。 我 们 将 数据 向 量化 的 方法 是 什么 ? 
- 我 们 是 要 对 这 些 特征 采用 手工 编码 还 是 使 用 算法 ? 
- 原始 文本 处 理 起 来 比较 麻烦 ， 那 么 我 们 该 如 何 应 对 ? 


源 数据 类 型 不 同 ， 在 向 量化 过 程 中 需要 考虑 的 事情 也 不 同 。 例 如 很 多 人 都 知道 列 式 数 据 
(如 数据 库 表 ) 向 量化 的 做 法 ， 那 就 是 将 每 个 列 的 类 型 向 量化 。 然 而 ， 如 果 将 散布 在 多 个 
文件 中 的 多 变量 的 时 间 序 列 数据 向 量化 ， 该 怎么 做 呢 ? 在 如 今 的 应 用 中 ， 这 些 类 型 的 问题 
都 隐藏 在 机 器 学 习 流 水 线 架构 的 身后 ， 本 章 将 讨论 构建 这 些 流 水 线 的 现实 问题 ， 首 先 回顾 
一 下 如 何 处 理 列 式 数据 的 向 量化 。 










































































抽取 、 转 换 和 加 载 


在 当今 的 企业 中 ， 许 多 商业 智能 和 报表 工具 都 具有 被 称 为 “抽取 ” (extract) 、 转换” 
(transform) 和 “加 载 ”(load) ( 即 ETL) 的 预 处 理 阶段 。 在 Apache Hadoop 中 ， 这 也 
是 常见 的 术语 。 在 这 个 阶段 ， 通 常 将 多 个 数据 集合 并 ， 过 滤 掉 不 需要 的 列 ， 应 用 必要 
的 转换 ， 然 后 将 数据 加 载 到 一 个 位 置 供 另 一 个 应 用 程序 使 用 。 大 部 分 向 量化 过 程 在 流 
水 线 的 ETL 阶段 执行 ， 并 且 需 要 考虑 构建 流水 线 时 应 该 执行 的 操作 。 











8.1.2 ”处理 列 式 原始 数据 属性 的 策略 


列 式 源 数 据 的 形状 和 大 小 各 异 ， 可 以 把 数据 表 中 的 每 一 列 看 作 数 据 的 “属性 ”， 例 如 从 关 
系数 据 库 管理 系统 (RDBMS) 导出 的 表 。 数 据 集 的 每 个 属性 可 以 被 进一步 分 类 。 因 为 是 
工作 在 数据 科学 家 的 领域 ， 所 以 我 们 使 用 他 们 对 数据 列 或 属性 的 定义 。 统 计 教科 书 通 常 将 
数据 属性 分 为 以 下 四 类 : 

。 名 目 

。 顺序 

。 等 距 

。 等 比 

下 面 快速 了 解 每 一 类 。 

1. 名 目 

名 目 属性 有 时 被 称 为 枚 举 的 、 分 类 的 或 离散 的 例如 “晴天 ”“ 阴 天 ”和 “下 雨 ")。 术 语 
“分 类 ” 指 这 些 属性 被 设置 在 一 组 有 限 的 可 能 性 中 。 它 们 的 符号 值 不 同 ， 这 些 值 用 作 标 签 。 
术语 “名 目 ” 源 于 拉丁 语 的 “名 称 ”(name) 一 词 。 名 目 属性 或 标签 彼此 之 间 没 有 关系 ， 
也 不 隐 含 任何 顺序 。 

对 于 名 目 列 ， 推 荐 使 用 列 值 的 独 热 表示 。 这 将 在 特征 向 量 中 创建 多 个 列 条 目 ， 基 中 包含 源 
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数据 的 列 值 为 1.0， 其 他 列 值 为 0.0。 


表 8-1 展示 了 两 个 记录 的 例子 ， 其 中 第 一 条 记录 的 值 为 “晴天”"， 第 二 条 记录 的 值 为 
“下 雨 ”。 


表 8-1: 特征 向 量 中 独 热 表示 的 示例 
[其 他 列 ] 上 晴天 阴 天 下 雨 [其 他 列 ] 






































1.0 0.0 0.0 

0.0 0.0 1.0 
2. 顺序 
顺序 值 除 了 有 顺序 这 点 之 外 ， 其 他 方面 就 像 名 目 值 。 顺 序 值 有 顺序 ， 这 样 就 31 入 了 排序 的 
概念 ， 但 没有 值 之 间距 离 的 概念 。 顺 序 值 可 以 比较 ， 但 是 数学 运算 在 这 些 值 的 语 境 中 没有 


























意义 。 


顺序 值 的 例子 有 “ 热 ”"” “温暖 ”和 “ 冷 ”( 只 要 约定 的 顺序 一 致 即 可 ， NT 
顺序 值 的 另 一 个 例子 是 “ 低 *”“ 中 ”和 “高 "。 这 些 值 最 终 被 转换 为 整数 值 (例如 冷 
温暖 = 1 等 ), 但 是 在 向 量化 的 代码 级 别 上 使 用 浮 点 值 表示 。 


顺序 和 名 目 之 间 只 有 细微 的 差别 。 一 些 旧 的 数据 挖掘 系统 倾向 于 只 使 用 名 目 和 顺序 类 型 。 
如 有 果 为 输出 向 量 选择 向 量 表示 方法 ， 我 们 会 使 用 独 热 表 示 。 对 于 输入 向 量 ， 我 们 可 能 将 列 
值 转换 为 实 值 。 


3. 等 距 

等 距 值 按 固定 且 相 等 的 单元 来 排序 和 测量 ， 例 如 特定 的 日 期 或 年 份 。 等 距 可 以 比较 ,但 是 
等 距 的 相 加 和 相 减 没有 意义 。 等 距 值 已 经 是 数字 了 ， 所 以 不 需要 转换 ， 但 是 最 后 我 们 可 能 
使 用 规范 化 的 方法 。 

4. 等 比 

等 比值 基于 零点 来 测量 ， 并 被 视 为 实数 。 在 这 种 情况 下 ， 数 学 运算 是 有 意义 的 。 等 比 数据 
的 方案 是 定义 一 个 零点 ， 从 这 个 固定 零点 起 计算 距离 。 等 比值 已 经 是 数字 了 ， 所 以 不 需要 
转换 。 不 过 我 们 可 能 使 用 一 个 规范 化 的 方法 ， 稍 后 将 介绍 做 法 。 


8.1.3 ”特征 工程 与 规范 化 技术 


向 量化 已 经 存在 一 段 时 间 了 ， 并 且 实践 者 已 经 开发 出 了 用 于 构建 规范 的 “扁平 ”向 量变 体 
的 模式 。 这 些 向 量化 模式 经 常 应 用 于 机 器 学 习 流 水 线 的 逻辑 回归 、 随 机 森林 等 方法 。 


一 种 经 典 的 向 量化 方法 是 ， 创 建 一 个 大 小 固定 的 长 度 为 n 的 向 量 (n-1 是 特征 数量 ， 最 后 
一 位 是 标签 值 专用 位 )， 然 后 根据 设计 表示 数据 的 一 些 启 发 式 规则 来 设置 每 个 索引 单元 的 
人 

青 况 下 深度 学 习 的 输入 需要 构建 更 复杂 的 n 维和 矩阵 数据 结构 。 随 着 内 容 的 推进 ， 本 章 将 
展示 为 RNN 创建 输入 张 量 和 为 CNN 创建 四 维 张 量 输入 的 更 先进 的 方法 。 根 据 本 市 的 主 
题 ， 我 们 将 重点 介绍 如 何 设计 这 些 输入 张 量 中 的 单个 特征 值 ， 以 及 如 何 对 这 些 值 应 用 规范 
化 方法 。 
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向 量化 的 过 程 基于 选择 属性 以 及 在 特征 向 量 中 找到 为 其 分 配 特 征 的 维度 。 有 具体 做 法 取决 于 
是 否 使 用 CSV、 文 本 、 图 像 或 时 间 序 列 数据 。 我 们 仍然 需要 选择 输入 数据 中 想 处 理 的 那些 
部 分 ， 并 在 输入 向 量 中 收集 它们 。 可 以 通过 多 种 方式 将 n 个 属性 转换 成 输出 向 量 中 的 m 个 
特征 ， 这 被 称 为 特征 工程 。 原 始 源 数据 通常 需要 在 建 模 之 前 进行 转换 ， 其 呈现 形式 如 下 : 


。 原始 文本 ， 如 文本 文件 中 的 文档 ; 
。 每 行 包含 一 条 推 特 文本 的 文件 ， 
自 定义 文件 格式 的 二 进 制 时间 序 列 数据 ， 
包含 数值 和 字符 串 混合 属性 的 预 处 理 数据 ， 
。 图 像 文 件 ; 
。 音频 文件 。 


根据 原始 数据 的 条 件 和 来 源 ， 属 性 可 以 是 数值 或 字符 串 形式 的 。 大 多 数 情况 下 ， 属 性 的 值 
是 数值 类 型 且 连 续 的 。 

这 些 属性 测量 数值 包括 实数 或 整数 值 。 在 这 个 设置 中 ,“ 连 续 ” 这 个 词 在 意义 上 指 “ 混 在 
一 起 的 ”。 



























































数据 清洗 与 ETL 

对 大 多 数 数据 科学 家 来 说 ， 数 据 是 需要 清洗 的 ， 而 且 会 耗费 大 量 时 间 。 数 据 清洗 通常 
发 生 在 机 器 学 习 的 ETL 阶段 ， 并 且 通 常 使 用 脚本 或 Hadoop 作业 在 ETL 流水 线 中 完 
成 。 根 据 属性 的 类 型 和 场景 的 特定 语义 ， 可 能 需要 使 用 占 位 值 。 即 使 数据 集中 每 一 列 
都 有 一 个 值 ， 但 是 也 不 能 完全 免除 对 数据 的 进一步 检查 。 由 于 各 种 原因 ， 仍 会 出 现 不 
准确 的 值 。 很 多 时 候 ， 数 据 是 在 一 段 时 间 内 收集 的 ， 一 些 列 的 值 不 相关 ， 并 且 存 在 着 
接收 到 一 个 不 准确 的 无 效 值 的 潜在 风险 。 再 次 强调 ， 研 究 数 据 集 和 图 形 属 性 的 统计 规 
则 是 最 佳 实践 。 











特征 工程 技术 可 以 用 于 将 列 式 数据 手工 向 量化 ， 或 者 处 理 时 间 序列 或 图 像 数据 等 更 复杂 的 
数据 。 这 些 技术 包括 ， 

。 直接 取 属性 不 变 的 值 ， 

。 规范 化 属性 ， 以 创建 特征 

。 特征 二 值 化 ， 

， 降 维 。 

下 面 是 这 些 技术 的 一 些 细节 。 

1. 特征 复制 

为 了 从 原始 输入 数据 中 创建 向 量 ， 需 要 选择 那些 与 模型 最 相关 的 数据 的 合适 “特征 "。 特 
征 选择 一 直 是 建立 成 功 模型 的 关键 ， 所 产生 的 向 量 中 的 特征 数量 通常 与 源 数据 中 的 属性 数 
量 不 相等 。 很 多 时 候 ， 源 数据 将 与 其 他 数据 集结 合 在 一 起 ， 然 后 所 得 到 的 数据 集 的 韭 规范 
化 视图 的 属性 子 集 将 用 于 导出 向 量 中 的 最 终 特征 集 。 

最 常见 的 生成 特征 的 方法 是 简单 复制 一 个 已 经 是 数字 且 其 在 正确 范围 内 的 属性 ， 可 惜 这 种 
情况 并 不 常见 。 更 多 的 时 候 ， 属 性 需要 做 一 些 基本 的 转换 。 
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缺失 值 的 处 理 
使 用 数据 时 ， 原 始 输入 数据 中 经 常 出 现 缺失 值 ， 这 些 值 常常 由 范围 外 的 数据 条 目 表 示 
(可 能 是 数字 条 目 中 的 -1， 或 是 永远 不 能 为 索 值 的 数字 属性 的 0)。 对 于 名 目 属性 ， 缺 
失 值 通 表 示 为 空白 或 破 折 号 。 缺 失 值 可 能 由 多 种 原因 导致 理解 源 数 据 的 机 制 有 助 于 
分 析出 值 缺 失 的 原因 。 一 个 好 的 实践 是 在 开始 通过 查找 离 群 值 来 构建 向 量 之 前 研究 数 
据 集 的 统计 和 属性 。 一 个 简单 的 做 法 是 绘制 各 种 属性 的 图 表 ， 并 查找 看 起 来 不 正确 的 
东西 ， 例 如 值 为 0 的 年 份 属性 。 


这 里 有 一 些 处 理 缺 失 值 的 基本 方法 。 


过 滤 掉 缺失 值 的 记录 。 (警告 : 如 果 值 不 是 随机 缺失 的 ， 这 样 做 可 能 会 引入 偏差 1 ) 
将 缺失 值 设 置 为 0。( 警 告 : 有 时 有 效 ; 会 在 数据 中 引入 “ 骂 声 ”。) 
设置 为 该 列 的 最 常用 值 (有 其 他 确定 该 替换 值 的 方法 ) 。 











2. 规范 化 

规范 化 方法 在 将 原始 数据 转换 为 向 量 表 示 之 后 ， 将 输入 训练 数据 缩放 至 一 个 范围 ， 例 如 
[0, 1]、[-1, 1] 等。 之 所 以 关注 规范 化 ， 因 为 它 会 影响 神经 网 络 中 的 激活 值 。 如 果 网 络 的 输 
入 太 大 ， 会 导致 激活 值 太 大 ， 可 能 对 训练 产生 不 利 影 响 。 相 反 ， 如 果 输 入 太 小 ， 激 活 值 可 
能 也 会 变 得 大小。 计算 网 络 中 的 梯度 时 可 能 受到 类 似 的 影响 。 


一 些 超 参 数 假设 数据 已 经 规范 化 


做 出 权重 初始 化 方案 (如 Xavier 权重 初始 化 ) 等 设计 决策 ， 是 以 假设 已 对 输 
入 数据 应 用 规范 化 为 前 提 的 。 











在 规范 化 时 ， 需 要 转换 数据 ， 使 其 更 加 一 致 。 有 两 种 基本 工具 能 够 以 不 同方 式 的 组 合 来 执 
行规 范 化 。 

。 居中 

。 缩放 


这 两 种 方法 的 目标 都 是 使 训练 过 程 更 容易 。 居 中 方法 转换 特征 ， 使 其 以 原点 为 中 心 ， 或 者 
在 大 多 数 情况 下 ， 以 平均 值 为 中 心 。 缩 放 则 重新 调节 特征 ， 使 特征 在 整个 数据 集 上 的 方差 
为 1， 或 者 使 每 个 特征 在 训练 数据 集 上 的 最 大 绝对 值 为 1。 
运用 上 述 核心 技术 的 具体 规范 化 方法 如 下 : 
。 标准 化 
。 极 值 缩放 

白化 

主 成 分 分 析 (PCA) 
在 通常 的 规范 化 实践 中 ， 应 用 居中 和 缩放 将 数据 转换 为 具有 零 均 值 和 单位 方差 。 极 值 缩放 
被 视 作 基本 缩放 技术 的 变 体 ， 有 助 于 学 习 算 法 更 高 效 地 操作 。 稍 后 将 简要 介绍 白化 和 主 成 
分 分 析 。 


























规范 化 的 缺陷 
实践 中 许多 数据 集 都 有 离 群 值 。 当 集 规范 化 数据 时 ， 非 离 群 值 数据 被 缩放 到 
一 个 很 小 的 区 间 ， 你 应 该 对 此 保持 警惕 。 








快速 复习 : 平均 值 与 方差 
向 量 的 转换 中 通常 会 使 用 统计 度量 ， 其 中 包括 使 用 样本 平均 值 (如 普通 的 “平均 值 ”) 
或 特征 的 样本 方差 (或 普通 的 “方差 ) 。 


特征 〈 或 数据 集中 的 列 ) 的 平均 值 只 是 特定 特征 值 的 平均 值 。 对 于 N 个 实 值 数 x 2D，…， 
Xw， 平 均值 计算 方法 如 下 : 
1 


特征 的 方差 用 于 测量 特征 的 值 围绕 其 平均 值 的 变化 量 。 


2 1 yy 
9 








其 中 人 是 刚才 定义 的 样本 平均 值 。 





标准 化 和 零 均值 ， 单 位 方差 。 当 将 特征 列 值 “标准 化 ”' 时， 我 们 减 去 位 置 的 度量 值 (最 小 
值 、 最 大 值 、 中 位 数 等 )， 然 后 除 以 缩放 的 度量 值 方差、 标准 差 、 范 围 等 ) 。 需 要 重新 调 
整 特 征 ， 使 它们 具有 以 下 标准 正 态 分 布 的 特性 。 

A=0 (平均 值 等 于 0) 

0o=1 (标准 差 等 于 1) 
对 于 每 个 特征 ， 要 将 值 转换 为 零 均 值 和 平均 值 为 1 的 标准 差 的 分 布 值 。 要 做 到 这 一 点 ， 首 
先 需 要 计算 每 个 特征 的 平均 值 和 标准 差 ， 然 后 从 每 个 特征 中 减 去 平均 值 ， 并 将 结果 除 以 特 
征 的 标准 差 ， 如 下 所 示 : 





























这 也 称 为 零 均值， 单位 方差 。 该 方程 将 特征 值 集中 在 平均 值 为 0、 标 准 差 为 1 的 [1, 1] 范 
围 内 。 

















零 均 值 ， 单 位 方差 是 最 常用 的 标准 化 方法 。 在 神经 网 络 中 ， 常 与 密集 向 量 一 
起 使 用 。 

















注 1: 在 一 些 文献 中 , “标准 化 ”也 称 “z-score 规范 化 ”。 
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SGD 等 优化 方法 ， 会 大 大 受益 于 标准 化 等 方法 。 很 多 时 候 ， 当 遇 到 不 同 数量 级 的 特征 时 ， 
一 些 参数 会 更 新 得 较 快 ， 这 是 因为 输入 特征 在 不 同 的 数量 级 上 。 标 准 化 也 是 一 种 有 助 于 基 
于 距离 来 比较 特征 之 间 相 似 性 的 方法 。 


当 向 量 中 数据 字段 从 属性 转换 为 特征 时 ， 还 需要 考虑 向 量 的 稀 玻 程度 〈 即 向 量 中 有 许多 零 
点 )。 当 数据 稀 朴 时 ， 需 要 缩放 特征 〈 或 前 面 提 到 的 “规范 化 ") 到 (0, 1) 范围 内 以 表示 概 
率 。 反 之 ， 当 向 量 密集 时 ， 需 要 先 执行 预 处 理 步骤 ， 使 平均 值 为 0、 单 位 方差 为 1， 然后 
完成 缩放 结果 值 的 步骤 〈 现 在 范围 为 [-1, 1])。 

稀 葡 和 密集 数据 预 处 理 的 主要 区 别 是 : 对 于 密集 数据 ， 首 先进 行 零 单 元 /平均 运算 ， 然 后 
进行 缩放 ， 而 对 于 稀疏 数据 ， 我 们 只 进行 缩放 。 显 然 ， 对 于 算法 需要 数据 在 (0, 1) 范围 内 
的 情况 ， 应 将 数据 缩放 到 该 范围 (如 RBM)。 

标准 化 的 注意 事项 

随意 将 标准 化 应 用 于 稀疏 向 量 不 是 一 个 好 主意 。 极 值 标准 化 〈 稍 后 介绍 ) 在 
某 些 情况 下 可 能 更 好 。 对 于 稀疏 向 量 ， 我 们 通常 希望 规范 化 后 0 依然 是 0， 
而 标准 化 可 能 不 是 这 样 做 的 。 




























































































标准 化 更 广泛 的 表示 
[-1, 1] 范围 内 的 数据 表示 比 基 本 规范 化 [0, 1] 的 数据 表示 更 广泛 ， 这 是 因为 
在 浮 点 表示 中 前 者 有 更 多 表示 信息 的 位 。 














极 值 缩放 。 男 一 种 将 数据 规范 化 的 方法 是 使 用 极 值 缩放 ， 做 法 是 将 每 个 特征 缩放 到 一 个 固 
定 的 范围 (例如 常见 的 范围 是 [0, 1])。 最 基本 的 极 值 缩放 的 方程 如 下 所 示 : 














和 三 XX — Xin 
全 ax = 
与 标准 化 相 比 ， 极 值 缩放 方法 要 做 出 的 妥协 是 最 终 得 到 的 标准 差 会 较 小 。 极 值 规范 化 对 离 
群 值 更 敏感 ， 因 为 单个 离 群 值 (小 的 或 大 的 ) 会 影响 极 值 ， 并 且 对 规范 化 有 很 大 影响 。 标 
准 化 方法 则 不 大 有 这 个 问题 。 
极 值 缩放 在 图 像 处 理 中 趋 于 流行 ， 对 于 图 像 处 理 ， 像 素 强 度 需 要 标准 化 到 特定 范围 (例如 
RGB 值 的 范围 是 [0, 255]， 并 且 需 要 将 输入 向 量 缩放 到 [0.0, 1.0])。 


规范 化 中 冲突 的 术语 

有 些 文献 将 极 值 缩放 简单 地 称 为 “规范 化 ”， 而 将 “标准 化 ” 当 作 另 一 种 技 
术 。 本 书 把 它们 都 视 为 规范 化 方法 ， 并 分 别 具 体 地 表述 为 “ 极 值 缩放 ”和 
“标准 化 ”， 以 进一步 区 分 这 些 方法 。 















































白化 和 主 成 分 分 析 。 在 深度 学 习 的 场景 中 ， 有 一 种 需要 了 解 的 转换 是 统计 白化 (简称 白 
化 )， 这 是 转换 数据 使 其 具有 特性 协 方差 矩阵 的 过 程 。 白 化 还 可 以 去 除数 据 中 的 相关 性 ， 
从 而 找到 一 种 以 高 效 的 方式 来 表示 数据 的 最 佳 方法 。 白 化 转换 的 名 称 来 自 将 输入 数据 变 为 
白 噪声 向 量 的 操作 。 使 用 白化 的 一 个 已 知 问题 是 ， 在 某 些 情况 下 它 会 放大 数据 的 噪声 。 














主 成 分 分 析 是 将 数据 集中 的 (可 能 相关 的 ) 数据 转换 为 线性 不 相关 变量 的 数据 集 的 方法 。 
该 方法 借助 正 交 转换 来 执行 转换 及 产生 一 组 主 成 分 。 

















降 维 
如 果 想 以 某 种 算法 找到 与 模型 最 相关 的 属性 ， 在 机 器 学 习 文 献 中 的 常见 解决 方案 是 降 
维 。 一 个 关于 深度 学 习 (具体 指 DBN) 有 趣 的 动态 是 ， 预 训练 阶段 通过 训练 RBM 的 
层 来 学 习 数 据 的 表示 。 自 动 编码 器 将 原始 数据 编码 成 较 短 的 数字 向 量 。 这 个 较 小 的 表 
示 之 后 可 以 作为 输入 ， 用 于 分 类 或 相似 性 搜索 算法 。 











在 RNN 和 CNN 中 应 用 规范 化 。 当 模型 假设 输入 为 某 种 结构 时 ， 数 据 也 应 该 规范 化 。 当 使 用 
RNN 的 变 体 计算 给 定 输入 的 平均 值 、 标 准 差 、 最 小 值 或 最 大 值 时 应 考虑 所 有 时 间 步 ， 如 LSTM。 
当 在 CNN 的 场景 进行 规范 化 时 ， 我 们 希望 在 图 像 中 的 所 有 像素 位 置 上 共享 通常 是 针对 每 
个 通道 (RGB) 分 别 计算 的 平均 值 、 标 准 差 和 其 他 计算 值 。 
回归 模型 的 规范 化 。 虽 然 需 要 在 回归 的 场景 中 规范 数据 ， 但 是 需要 把 回归 当 作 一 种 特殊 
情况 。 规 范 分 类 模型 时 ， 通 常 是 规范 特征 (输入 )， 然 而 对 于 回归 ， 还 经 常 需要 规范 标签 
(例如 目标 或 输出 数据 值 )。 

对 于 回归 模型 ， 在 规范 化 过 程 中 应 使 用 相同 的 基本 做 法 。 当 规范 训练 过 程 中 的 输入 和 输出 
时 ， 仍 然 使 用 极 值 缩放 和 标准 化 之 类 的 方法 。 




































































为 什么 要 规范 回归 的 输出 

考虑 一 下 均 方 误差 (MSE) 损失 函数 的 例子 : 如 果 值 的 范围 是 0~100 万 ， 那么 最 终 会 
产生 大 的 误差 和 过 大 的 梯度 。 
不 过 在 规范 标签 (输出 值 ) 之 后 ， 将 无 法 预测 所 关心 的 原始 数据 ， 因 此 需要 撤销 对 网 
络 预测 的 规范 。 可 以 执行 极 值 和 标准 化 的 反 向 规范 ， 因 为 它们 是 一 对 一 映射 的 。 
重新 排列 规范 化 方程 ， 即 可 得 到 撤销 它 的 方程 。 

( 反 向 标准 化 ) 

origScaleOutput = netOutput x sigma + mu 

( 反 向 极 值 缩放 ) 

origScaleOutput = netOutput x (xMax - xMin) + XMin 











3. 二 值 化 

当 从 属性 构建 特征 时 ， 存 在 其 他 情况 ， 建 模 算法 可 能 要 求 数据 遵循 多 变量 伯 努 利 分 布 。 

在 这 种 情况 下 ， 可 以 使 用 特征 二 值 化 方法 ， 通 过 设置 数值 特征 的 国 值 来 获得 布尔 值 。 这 涉 
及 使 用 过 滤器 产生 一 个 特征 ， 这 个 特征 以 1 或 0 为 值 。 



























































8.2 使 用 DataVec 进 行 ETL 和 向 量化 


本 章 介 绍 的 数据 ETL、 向 量化 和 规范 化 等 对 实践 者 来 说 都 是 重要 的 主题 。 我 们 不 仅 要 共 
虑 建立 什么 样 的 机 器 学 习 流 水 线 ， 还 要 雳 虑 如 何 操作 这 个 流水 线 。 考 虑 到 大 多 数 连接 和 
ETL 操作 是 数据 集 上 的 单 次 操作 ， 因 而 当 我 们 希望 流水 线 操作 更 快 时 ， 水 平 扩展 也 会 发 
挥 作用 。 














并 不 是 只 有 在 数据 量 很 大 时 才 需 要 更 快 的 速度 

即使 你 没有 TB 级 的 输入 数据 ， 也 可 能 需要 考虑 机 器 学 习 流 水 线 在 ETL 阶 
段 可 扩展 的 解决 方案 。 很 多 时 候 ， 管 理 者 或 客户 会 问 :“ 我 们 怎样 才能 更 快 
地 得 到 答案 ?”” 大 部 分 情况 下 ， 答 案 都 是 水 平 扩展 流水 线 。Apache Hadoop、 
Apache Spark、DL4J 和 DataVec 等 工具 都 是 现代 可 扩展 机 器 学 习 流水 线 解决 
方案 。 











DataVec 人 允许 以 本 地 模式 执行 ， 也 可 以 在 Apache Spark 和 Apache Hadoop 上 水 平 扩展 。 在 
第 5 章 的 示例 中 ， 可 以 看 到 直接 使 用 ND4J API 来 操作 数据 以 生成 供 DL4J 库 使 用 的 输入 
DataSet 对 象 。DataVec 的 长 处 之 一 ， 是 它 能 够 接受 某 些 类 型 的 标准 数据 并 自动 生成 向 量化 
的 DataSet 对 象 。DataVec 还 包括 转换 以 收集 向 量化 数据 的 统计 数据 ， 然 后 将 Dataset 对 象 
中 的 数据 规范 化 。 

如 本 章 之 前 所 讨论 的 ， 机 器 学 习 (和 深度 学 习 ) 中 对 向 量化 的 基本 需求 是 能 够 处 理 列 式 
(CSV) 数据 类 型 。 在 DataVec 本 地 模式 下 ， 只 需要 编写 以 下 代码 即 可 : 


RecordReader reader = new CSVRecordReader( numLinesToSkip, delimiter ); 
InputSplit inputSplit = new FileInputSplit( file ); 
reader .initialize( inputSplit ); 





























// 创 建 DataSetIterator。 这 里 我 们 假设 分 类 的 情况 : 


int minibatchsize = 10; // 每 个 小 批量 中 的 样本 数 


int labelIndex = 7; // 包 含 标签 在 内 的 列 的 索引 
int numClasses = 5; // 类 别 数 (标签 类 别 ) 


DataSetIterator iterator = 
new RecordReaderDataSetIterator( 
reader, minibatchSize, labelIndex, numClasses ); 


最 早 在 第 5 章 中 用 CSV 数据 输入 建立 多 层 感知 器 模型 时 出 现 过 这 段 代 码 。DataVec 允许 我 
们 指定 不 同类 型 的 记录 读 取 器 ， 将 它们 与 Dataset 迭代 器 结合 使 用 ， 并 在 DL4J 建 模 流水 
线 中 处 理 数 据 。DataVec 能 够 让 我 们 快速 指定 下 列 操作 : 
。 规范 化 

标准 化 
随 着 本 章 内 容 的 推进 ， 将 讨论 其 他 主要 的 数据 类 型 ， 并 展示 DataVec 是 如 何 处 理 它们 的 。 















































如 果 想 阅读 更 多 关于 DataVec 的 内 容 ， 请 参考 由 特 邀 作者 Alex Black 编写 的 
附录 下 。 


8.3 将 图 何 数 据 癌 量化 


图 像 是 挖掘 信息 的 另 一 个 丰富 的 来 源 。 图 像 的 定义 为 “描绘 或 记录 视觉 感知 的 人 造物 ， 例 
如 二 维 图 像 ”。 在 表 8-2 中 展示 的 像素 值 的 数组 表示 存储 在 计算 机 上 的 图 像 。 每 个 像素 都 有 
一 个 值 ， 指 示 像 素 的 亮度 或 像素 的 颜色 。 


表 8-2: 以 行 、 列 形式 可 视 化 图 像 中 的 像素 





列 1 列 2 时 列 m 
| pll p21 总 p-m-1 
行 2 p12 p22 ee p-m-2 
行 n p-l-n p-2-n i p-m-n 


每 个 像素 的 位 数 决定 它 可 以 显示 多 少 种 颜色 。1 位 像素 只 能 显示 二 值 图 像 (通常 是 黑白 像 
素 )。 八 位 像素 更 常见 ， 每 个 像素 可 以 显示 256 种 颜色 (或 灰 度 )。 对 于 灰 度 图 像 ， 像 素 的 
整数 值 表示 像素 的 亮度 (范围 为 从 黑色 到 白色 ,或 者 0 或 255)。 要 表示 彩色 图 像 ， 必 须 为 
每 个 像素 指定 单独 的 红色 、 绿 色 和 蓝 色 的 量 (假设 为 RGB 颜色 空间 )， 因 此 像素 值 实际 上 
是 三 个 数字 的 元 组 。 常 见 的 图 像 文 件 格 式 有 JPG、PNG 和 GIF。 


图 像 格式 
每 种 格式 以 不 同 的 方式 存储 图 像 数 据 ， 并 对 原始 数据 执行 不 同 级 别 的 压缩 。 
图 像 不 同 于 文本 ， 能 够 更 直接 地 向 量化 。 









































处 理 视频 数据 

视频 数据 向 量化 是 图 像 向 量化 和 时 间 序 列 向 量化 的 变 体 。 在 视频 数据 中 有 一 
系列 带 时 间 惟 的 图 像 。 视 频 向 量化 的 过 程 涉及 随时 间 跟 踪 图 像 向 量化 ， 并 且 
从 要 孝 虑 的 单个 向 量 (例如 单个 帧 与 跨 多 个 帧 的 图 像 的 子 集 ) 的 角度 来 看 ， 


这 个 过 程 可 能 更 复杂 。 















































8.3.1 DL4J 中 的 图 像 数 据 表示 


在 深度 学 习 中 ， 我 们 最 感 兴趣 的 是 CNN 的 图 像 向 量化 。 在 DL4J 中 ， 每 个 图 像 转换 为 
INDArray 对 象 中 的 三 维 张 量 表示 〈 有 关 该 主题 的 更 多 信息 ， 请 参阅 附录 E) ， 如 图 8-1 所 示 。 
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输入 空间 
(突出 显示 了 输入 ) 





人 工 神 经 元 模型 的 细 市 











8-1: 卷 积 网 络 中 的 三 维 输入 空间 


从 本 书 的 示例 可 以 看 出 ， 当 创建 用 于 训练 的 图 像 小 批量 时 ， 实 际 上 正在 创建 具有 以 下 维度 
的 四 维 (4D) 张 量 。 

(1) 小 批量 大 小 

(2) 深度 

(3) 高 度 

(4) 宽度 

其 中 ， 宽 度 和 高 度 直 接 映射 为 输入 图 像 的 特征 ， 深 度 是 图 像 数 据 中 通道 的 数量 (例如 RGB 
图 像 中 通道 的 数量 通常 为 3)。 














4D 小 批量 图 像 是 CNN 的 标准 
4D 格式 是 在 DL4J 中 使 用 CNN 处 理 图 像 的 标准 。 








如 果 要 为 多 层 感 知 器 网 络 将 数据 向 量化 ， 则 需要 将 数据 局 平 化 到 二 维 〈 例 如 minibatchsize， 
深度 x 高 度 x 宽度 )。 为 了 理解 这 种 图 像 向 量化 的 变 体 ， 需 要 继续 对 视觉 网 格 的 解释 。 
对 于 图 像 ， 首 先 要 做 的 是 从 像素 数组 中 的 每 个 位 置 提取 像素 强度 。 它 的 基本 思想 是 采用 
m xn 图 像 的 概念 ， 并 将 这 个 矩形 扁平 化 为 1 x (m x n) 数组 ， 如 表 8-3 所 示 。 
表 8-3: 扁平 化 后 的 图 像 数 据 

列 1 列 2 三 列 m-x-n 
行 1 像素 1 像素 2 ... 像素 m-x-n 


图 像 由 一 系列 浮 点 值 组 成 ， 这 些 值 在 物理 上 表示 色彩 强度 ， 但 是 我 们 往往 将 其 看 作 像素 强 
度 的 mxn 网 格 的 逻辑 形式 。 为 了 使 图 像 适 合 任何 线性 代数 向 量 ， 需 要 将 这 些 像素 强度 分 
配 到 更 适合 机 器 学 习 算 法 的 值 向 量 中 。 









































如 表 8-4 所 示 ， 需 要 将 这 个 矩形 转换 成 矩阵 中 每 个 图 像 记 录 的 1xxm) 数 组。 使 
用 CnnToFeedForwardPreprocessor 来 执行 这 个 扁平 化 过 程 ， 这 由 在 网 络 配 置 中 使 用 
的 .setInputType(InputType.convolutional(height,width,depth)) 自动 完成 。setInputType() 
方法 会 意识 到 我 们 正在 试图 将 一 个 4D 数组 输入 到 一 个 需要 2D 数组 的 密集 层 中 ， 因 此 它 
将 添加 预 处 理 器 来 将 数据 扁平 化 。 


表 8-4: 2D 数 组 中 的 扁平 化 后 的 小 批量 图 像 
























































列 1 列 2 0 列 m-x-n 
到 像 1 像素 1 像素 2 攻 像素 m-x-n 
到 像 2 ”像素 1 像素 2 像素 m-x-n 
到 像 3 ”像素 1 像素 2 名 像素 m-x-n 











8.3.2 ”使 用 DataVec 将 图 像 数据 与 向 量规 范 化 


在 图 像 建 模 中 ， 向 量化 的 一 个 主要 部 分 是 从 文件 格式 容器 中 获取 原始 像素 数据 ， 并 将 其 转 
换 为 学 习 算 法 所 能 理解 的 向 量 对 象 。 需 要 逐个 单元 读 取 原始 像素 数据 ， 进 行 所 需 的 转换 或 
标准 化 ， 然 后 在 输出 向 量 对 应 的 索引 处 添加 值 。 很 多 时 候 ， 我 们 只 是 简单 地 取 整 组 图 像 像 
素 ， 然 后 将 它们 直接 转换 为 一 个 向 量 ， 并 转换 每 一 个 像素 。 在 更 先进 的 图 像 处 理 方法 中 ， 
图 像 的 一 部 分 被 解析 出 来 并 被 自己 用 作 向 量 。 

DataVec 的 ImageRecordReader 是 图 像 数 据 的 记录 读 取 器 ， 它 还 能 执行 裁剪 等 常用 的 图 像 操 
作 。ImageRecordReader 支持 多 种 图 像 格 式 ， 其 中 包括 : 


。 JPG 
。 GIF 
。 PNG 
。 TIFF 
。 BMP 


JavaCV 和 OpenCV 提供 了 高 效 的 加 载 和 图 像 操 作 。 下 面 的 代码 片段 显示 了 设置 DataVec 的 
ImageRecordReader 来 构建 DataSetIterator， 它 使 得 DL4J 能 够 直接 训练 图 像 数据 。 


ImageRecordReader reader = 
new ImageRecordReader( 
outputHeight, outputWidth, inputNumChannels, labelMaker ); 
reader .initialize( inputSplit ); 
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// 最 后 ， 创 建 DataSetIterator ; 


int minibatchsize = 10; // 每 个 小 批量 中 的 样本 数 
int LabeLIndex = 1; // 总 是 将 ImageRecordReader 设 置 为 1 
int numClasses = 3; // 类 别 数 (标签 类 别 ) 





DataSetIterator iterator = 
new RecordReaderDataSetIterator( 
reader, minibatchSize, labelIndex, numClasses ); 


这 样 的 功能 使 得 DL4J 更 容易 使 用 ， 因 为 你 可 以 关注 整个 ETL 和 向 量化 流水 线 ， 而 不 必 操 
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心细 节 ， 比 如 从 文件 格式 中 提取 像素 值 等 。 附 东 下 详细 介绍 了 ImageRecordReader， 以 及 图 
像 数 据 转 换 、 规 范 化 和 标准 化 的 方法 。 


8.4 ”将 序列 数据 加 量化 


除了 行 的 给 定 列 中 可 能 有 多 个 值 之 外 ， 序 列 数据 类 似 于 列 式 数 据 。 例 如 随 着 时 间 推 移 ， 在 
特定 位 置 周期 性 读 取 温度 的 温度 计 。 如 果 给 每 个 温度 测量 值 增 加 一 个 时 间 惟 ， 这 个 序列 数 
据 就 可 以 称 作 “ 时 间 序 列 数据 ”。 通 常 将 时 间 序 列 数 据 定义 为 在 连续 的 时 间 间 隔 上 测量 的 
数据 点 序列 。 金 融 领 域 的 纽约 证 券 交 易 所 每 天 不 同 的 股票 收盘 价 就 是 时 间 序 列 数据 。 另 一 
个 例子 是 智能 电网 上 的 相 量 测量 单元 (PMU) 装置 的 传感器 读数 ， 该 装置 每 秒 测 量 30 次 
“相位 角 ” 和 电压 。 


最 常见 的 一 个 应 用 是 日 志 处 理 。Web 服务 器 、 和 手机 和 信用 卡 刷 卡 机 等 系统 每 次 响应 请 求 
执行 操作 时 都 会 生成 日 志 条 目 。 这 些 设备 是 序列 乃至 时 间 序 列 数据 的 巨大 来 源 。 传 统 的 
RDBMS 系统 不 太 适 合 存储 这 样 的 数据 ， 所 以 它们 经 常 被 存储 在 存储 区 域 网 络 (SAN) 驱 
动 器 或 Apache HDFS 中 。 人 们 谈论 最 多 的 物 联 网 〈IoT) 主要 由 这 些 用 例 组 成 ， 其 中 我 们 
提取 和 处 理 来 自传 感 器 (Web 服务 器 、PMU、 手 机 等 ) 的 时 间 序 列 数据 。 我 们 可 能 不 会 直 
接 想到 的 序列 数据 的 其 他 来 源 是 基因 组 数据 和 规则 字符 序列 〈 如 句子 )。 

现在 许多 机 器 学 习 工 具 对 序列 数据 的 支持 很 差 ， 实 践 者 最 终 不 得 不 手动 编码 复杂 的 ETL 流 
水 线 来 处 理 这 类 数据 。 噪 声 很 多 的 序列 值 需要 规范 化 和 标准 化 。 本 市 的 剩余 部 分 将 研究 一 
些 使 用 DataVec 处 理 序列 数据 的 ETL 和 向 量化 需求 的 实用 方法 。 


8.4.1 序列 数据 源 的 主要 变 
基于 由 谁 或 什么 设备 产生 数据 、 在 何 处 存储 数据 ， 以 及 使 用 什么 格式 来 存储 数据 ， 序 列 数 
据 可 呈现 多 种 形式 ， 常 见 的 三 种 主要 形式 如 下 ; 
。 原始 日 志 ; 
。 时 间 序 列 数据 的 单个 CSV 文件 ， 
。 时 间 序 列 数据 的 多 个 CSV 文件 。 
这 些 源 文件 可 能 有 不 同 的 数据 排列 方式 。 有 了 实体 (例如 “用 户 ” 或 跟踪 动作 的 其 他 代 
理 ) ， 以 及 为 每 个 序列 条 目 收 集 的 YX 个 值 ， 我 们 就 拥有 了 一 个 序列 ， 其 中 每 个 实体 都 有 一 
个 或 更 多 列 。 数 据 在 磁盘 上 存储 的 形式 包括 : 
口 单个 文件 中 包含 所 有 序列 
每 一 行 是 读 取 自 单个 源 的 CSV 集合 (例如 多 列 )。 
口 跨 多 个 文件 的 序列 扩展 
其 每 个 文件 通常 都 用 来 表示 读 取 自 单个 源 的 信息 。 
在 单个 文件 中 ， 有 时 会 看 到 在 CSV 文件 中 以 行 格式 排列 的 序列 数据 ， 其 中 每 一 行 代 表 给 
定 源 的 单个 列 。 该 行 还 包含 源 的 标识 符 。 
当 每 个 源 在 每 个 时 间 步 产生 了 多 列 时 间 序 列 ， 就 会 看 到 数据 以 每 行 即 一 个 时 间 步 的 形式 出 
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现在 CSV 文件 中 。 每 个 文件 都 代表 多 变量 时 间 序 列 数据 的 一 个 单个 源 。 每 行 通常 有 一 列 
或 多 列 ， 表 示 源 中 每 个 时 间 步 的 多 个 值 。 


还 需要 考虑 在 时 间 序 列 数据 的 每 个 时 间 步 中 包含 多 少 列 的 测量 值 。 例 如 当 只 测量 电网 中 的 
电压 时 ， 在 一 个 序列 的 每 个 时 间 步 中 ， 我 们 只 会 测量 一 列 的 值 。 如 果 每 一 步 (或 者 时 间 
步 ) 都 要 测量 电压 和 温度 两 个 值 ， 就 需要 一 种 能 够 每 一 步 表 示 至 少 两 列 的 文件 格式 。 


所 有 的 这 些 (以 及 更 多 的 ) 因素 在 ETL 过 程 中 起 作用 ， 最 终 导致 序列 数据 的 向 量化 、 规 范 
化 和 标准 化 。 最 终 所 有 这 些 信息 都 被 放 到 一 个 对 象 (例如 DataSet 对 象 ) 中 ， 以 便 建 模 工 
具 能 够 理解 。DL4J 通过 DataVec 为 处 理 序 列 数据 ETL 提供 支持 。 


8.4.2 ”使 用 DataVec 将 序列 数据 向 量化 


我 们 需要 能 够 从 驱动 器 (本 地 或 从 另 一 个 位 置 ， 如 HDFS) 加 载 原始 序列 文件 ， 这 涉及 以 
下 任务 : 


。 读 取 文 件 格式 ， 

。 处 理 数据 的 连接 或 转换 ， 

。 匹配 标签 (如 有 ) 与 序列 相关 源 的 特征 ， 

。 执行 所 需 的 规范 化 或 标准 化 ; 

。 最 后 生成 数据 正确 对 齐 的 DataSet 对 象 。 

理想 情况 下 ， 输 入 文件 格式 与 在 DataVec (或 Spark， 如 果 使 用 Spark 执行 环境 ) 中 已 有 的 
记录 读 取 器 匹配 。 最 后 用 ND4J 中 由 NDArray 表示 的 张 量 结构 中 的 一 列 或 多 列 构 造 一 个 小 
批量 序列 数据 。 我 们 想 生 成 一 个 3D 张 量 结构 ， 如 图 8-2 中 的 右 图 所 示 。 




























































































前 馈 网 络 数据 循环 网 络 数据 


SS 


8-2: RNN 的 序列 数据 表示 


创建 一 个 满足 以 下 条 件 的 3D 张 量 (例如 3D 矩阵)。 
。 小 批量 大 小 是 第 一 维度 。 

。 特征 列 是 第 二 维度 。 

。 每 一 列 的 时 间 步 的 值 是 第 三 维度 。 


样本 
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执行 上 述 所 有 ETL 工作 可 能 变 得 复杂 ， 需 要 人 工 对 齐 NDArray 张 量 中 的 数据 值 。 从 这 个 
角度 ， 建 议 在 可 能 的 情况 下 ， 使 用 Datavec 中 的 记录 读 取 器 和 格式 。 

自 定义 文件 类 型 

如 果 在 DataVec 中 没有 用 于 特定 类 型 输入 数据 的 记录 读 取 器 ， 则 必须 为 构造 
张 量 编写 一 些 自 定义 代码 。 根 据 数据 的 复杂 性 ， 这 可 能 是 一 个 非常 有 挑战 的 
练习 。 

















在 继续 讨论 如 何 使 用 DataVec 将 一 些 序列 转换 为 张 量 的 模式 之 前 ， 首 先 了 解 时 间 序 列 向 量 
化 的 一 些 较 老 的 变 体 。 

1. 将 时 间 序 列 转换 为 单个 向 量 

对 于 大 多 数 机 器 学 习 方法 ， 每 条 记录 需要 表示 为 向 量 或 怎 阵 中 的 行 。 每 行 表示 单条 记录 ， 
一 组 行 表示 要 训练 的 这 些 向 量 的 小 批量 ， 如 图 8-2 中 左 图 所 示 。 

这 种 做 法 的 主要 缺点 是 输入 数据 的 时 间 维 度 缺 失 。 在 RNN 出 现 前 的 大 部 分 时 间 里 ， 我 们 
不 关心 这 个 问题 ， 因 为 大 多 数 机 器 学 习 技 术 无 法 考虑 值 序列 (或 时 域 )。 大 多 数 时 候 ， 实 
践 者 都 是 发 挥 各 种 奇 思 妙 想 ， 人 工 创建 向 量 。 虽 然 在 某 些 情况 下 是 高 效 的 ， 但 是 正如 第 5 
章 所 讨论 的 ， 这 种 做 法 在 机 器 学 习 流 水 线 的 耐用 性 方面 可 能 导致 严重 的 技术 负债 。 
























































符号 聚合 近似 
在 平面 向 量 表 示 的 世界 中 ， 有 几 种 处 理 时 间 序 列 数据 的 方法 。 其 中 一 种 处 理 噪声 时 间 
序列 数据 的 方法 是 在 其 上 运行 低 通 滤波 器 作为 预 处理 步 骤 。 符 号 聚合 近似 (SAX) 预 
处 理 可 以 很 好 地 减少 时 间 序 列 数据 中 噪声 。Eamonn Keogh 博士 的 团队 在 加 州 大 学 河 滨 
分 校 开发 了 SAX。SAX 是 时 间 序 列 的 符号 表示 ， 具 有 一 些 特 性 。SAX 表示 qd 维 空间 
中 长 度 为 n 的 时 间 序 列 T。 它 本 质 上 是 带 有 下 限 的 欧 几 里 得 距离 的 低 通 滤波 器 。SAX 
对 原始 时 间 序 列 数据 作 降 维 处 理 ， 这 有 助 于 学 习 算 法 。 


SAX 的 继承 者 是 可 索引 的 符号 聚合 近似 (iSAX) ， 它 增加 了 一 些 额 外 的 能 力 。iSAX 修 
改 了 SAX， 以 便于 “可 扩展 哈 希 ”和 多 分 辨 率 表示 ， 并 允许 快速 精确 搜索 和 超 快 速 近 
似 搜索 。 最 终 的 效果 是 ，iSAX 在 表示 不 同 值 的 分 布 方面 更 加 灵活 ， 它 使 得 在 许多 应 用 
中 (如 快速 近似 搜索 ) 使 用 时 间 序 列 上 的 兴趣 指数 更 方便 。 











2. 在 本 地 模式 下 将 序列 数据 转换 为 Dataset 对 象 
在 RNN (和 LSTM) 中 ， 我 们 想 生 成 一 个 由 Dataset 对 象 表示 的 3D 张 量 。 为 了 说 明 这 个 
概念 ， 来 考虑 这 样 一 种 情况 : 对 数据 建 模 ， 其 中 每 个 实体 的 序列 数据 被 分 成 不 同 的 文件 ， 
每 个 实体 的 标签 也 有 相应 的 文件 ， 如 下 面 的 例子 所 示 。 

实体 0 的 序列 数据 的 文件 : 

一 train/features/0.csv 

实体 0 的 序列 数据 的 标签 : 

— train/labels/0.csvyv 
































该 数据 在 每 个 测量 步骤 中 只 有 一 列 数据 ， 所 以 它 被 视 作 单 变 量 。 使 用 DataVec 时 ， 可 以 以 
CSVSequenceRecordReader 为 记录 读 取 器 ， 然 后 ，NumberedFileInputSplit 类 将 处 理 文 件 和 
目录 命名 方案 。 使 用 SequenceRecordReaderDataSetIterator 类 来 生成 DataSet 对 象 ， 它 将 














使 用 记录 读 取 器 和 输入 分 割 对 象 ， 如 下 面 的 代码 示例 所 示 : 


// 请 注意 ， 我 们 有 459 个 表示 特征 的 训练 文件 ， 从 train/features/0.csv 到 train/ 
features/449.csv 

















SequenceRecordReader trainFeatures = new CSVSequenceRecordReader(); 
trainFeatures.initialize(new NumberedFileInputSplit(featuresDirTrain 
.getAbsoLutePath() + "/%d.csv", 0, 449)); 


SequenceRecordReader trainLabels = new CSVSequenceRecordReader(); 
trainLabels.initialize(new NumberedFileInputSplit(labelsDirTrain 
.getAbsoLutePath() + "/%d.csv", 0, 449)); 


int miniBatchSize = 10; 
int numLabelClasses = 6; 


DataSetIterator trainData = 
new SequenceRecordReaderDataSetIterator(trainFeatures, 
trainLabels, miniBatchSize, numLabelClasses, 
false, SequenceRecordReaderDataSetIterator.AlignmentMode.ALIGN_END); 


// 将 训练 数据 规范 化 
DataNormalization normalizer = new NormalizerStandardize(); 
normalizer .fit(trainData); // 收 集训 练 数 据 的 统计 信息 


trainData.reset(); 


// 使 用 先前 收集 的 统计 信息 立即 进行 规范 化 。 
// 由 "trainData" 友 代 器 返回 的 每 个 数据 集 将 被 规范 化 。 


trainData.setPreProcessor(normalizer); 


这 里 将 前 面 提 到 的 对 象 汇 总 起 来 创建 DataSetIterator， 它 将 提供 Dataset 对 象 的 小 批 







































































迪 六 








的 最 后 ， 还 可 以 看 到 在 DataVec 流水 线 运 行 时 如 何 将 规范 化 和 标准 化 应 用 于 数据 。 
以 下 是 DataVec 记录 读 取 器 的 其 他 变 体 。 


口 CSVNLinesSequenceRecordReader 
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nl 





Eo 


些 DataSet 对 象 的 小 批量 将 包含 来 自 源 文件 (和 标签 文件 ) 的 正确 对 齐 的 数据 。 在 代码 


CSVNLinesSequenceRecordReader 是 前 面 提 到 的 CSV 序列 读 取 器 的 另 一 个 版 本 。 每 个 序 











列 都 正好 是 入行 长 ， 全 部 记录 在 一 个 文件 中 ， 一 个 接 一 个 。 
口 RegexSequenceRecordReader 


RegexSequenceRecordReader 对 日 志 数 据 很 有 用 ， 需 要 正则 表达 式 来 解析 这 些 列 。 














在 处 理 文件 格式 方面 ， 前 面 演示 了 NunberedFileInputsplit 的 使 用 ， 它 知道 如 何 读 取 在 
目录 中 分 离 的 编号 文件 。 显 然 还 有 许多 其 他 方法 可 以 在 驱动 器 上 布置 文件 ， 我 们 会 对 








Filesplit 类 进行 子 类 化 以 进一步 处 理 这 些 场景 。 


这 里 要 考虑 的 是 为 那些 在 DataVec 中 没有 所 需 内 置 功能 的 序列 数据 构建 自 定义 DataSet， 
以 及 在 Spark 上 运行 DataVec。 稍 后 将 介绍 DataSet 对 象 的 自 定义 构造 。 第 9 章 将 探讨 在 
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Apache Spark 上 将 序列 数据 向 量化 。 


3. 从 序列 数据 构建 自 定义 DataSet 
创建 在 DL4J 中 训练 LSTM 所 需 的 数据 结构 只 需要 以 下 内 容 : 


。 持 有 训练 数据 的 输入 NDArray; 
。 持 有 标签 数据 的 标签 NDArray; 
。 表示 掩 码 信息 的 两 个 掩 码 DataSet。 


将 这 四 个 NDArray 对 象 组 合 在 一 起 ， 构 建 DL4J 期 望 的 DataSet 对 象 。 


DataSet d = new DataSet( input, labels, mask_in, mask_labels ); 


实际 上 ， 诀 窃 在 二 以 与 前 面 的 行 类 似 的 方式 ， 在 把 所 有 的 数据 合并 之 前 ， 把 每 个 NDArray 
数据 放 到 正确 的 位 置 ， 如 下 面 的 代码 片段 所 示 ; 


// 分 配 空间 : { 小 批量 大 小 ， 列 数量 ， 时 间 步 数量 } 
INDArray ;input = 

Nd4j.zeros(new int[]{ miniBatchSize, inputColumnCount, maxTimestepLength }); 
INDArray labels = 

Nd4j.zeros(new int[]{ miniBatchSize, outputColumnCount, maxTimestepLength }); 
INDArray mask = Nd4j.zeros(new int[]{ miniBatchSize, maxTimestepLength }); 








for (int miniBatchIndex = 0; miniBatchIndex < miniBatchSize; miniBatchIndex++) { 


for ( int curTimestep = 0; curTimestep < endTimestep; curTimestep++ ){ 
//input -> 设置 字符 id-index 的 列 索 引 -> 在 当前 时 间 步 (c) 


input.putScalar(new int[]{ miniBatchIndex, columnIndex, curTimestep }, 1.0); 














// 在 这 里 做 更 多 的 列 输入 
// 现 在 设置 掩 码 ， 设 置 所 有 有 数据 的 时 间 步 为 1.0 


mask.putScalar(new int[]{ miniBatchIndex, curTimestep }, 1.0); 

















//Labets -> 设置 下 一 个 字符 id-index 的 列 索 引 -> 在 当前 时 间 步 (c) 
labels.putScalar(new int[]{ miniBatchIndex, nextValuye, timestep }, 1.0); 


} 


INDArray mask2 = Nd4j.zeros(new int[]{ miniBatchSize, maxLength }); 
Nd4j.copy(mask, mask2); 
return new DataSet(input,labels, mask, mask2); 


显然 ， 在 执行 这 段 代 码 的 时 候 ， 原 始 数据 所 需 的 所 有 ETL 和 向 量化 已 经 执行 了 ， 这 时 只 是 
在 张 量 数据 结构 中 对 齐 数据 。 下 面 是 关于 这 上 段 代码 的 主要 注意 事项 。 

。 需要 使 用 ND4J 构造 输入 矩阵 。 

。 双 回 路 模式 通常 是 以 一 种 连贯 的 方式 穿越 3D 数据 结构 并 建立 数据 。 

。 然后 主要 调用 INDArray.setScalar() 来 设置 值 。 


需要 注意 排列 标签 矩阵 数据 的 方式 。 如 果 像 第 5 章 莎士比亚 的 例子 一 样 做 字符 预测 ， 下 一 
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个 字符 值 要 放 在 标签 矩阵 的 当前 时 间 步 中 。 如 果 正 在 执行 序列 数据 分 类 模型 〈 例 如 对 日 志 
数据 中 的 异常 进行 分 类 )， 类 别 可 能 放 在 标签 矩阵 中 的 每 个 时 间 步 中 。 布 置 数据 是 一 门 艺 
术 ， 处 理 在 不 均匀 的 时 间 步 中 发 生 的 数据 有 多 种 策略 ， 你 需要 自行 判断 采用 哪 种 策略 。 

















在 张 量 中 使 用 掉 码 
在 DL4J 中 ,训练 数据 和 标签 中 都 使 用 掩 码 。 


在 训练 数据 掩 码 中 ， 每 个 包含 训练 数据 的 时 间 步 的 掩 码 值 设 为 1.0， 其 他 所 有 了 时间 步 的 
掩 码 值 设 为 0.0。 对 于 输入 数据 结构 和 标签 数据 结构 ， 通 常 使 用 相同 的 掩 码 。 


在 代码 中 实现 时 ,通常 遍历 张 量 数据 结构 ， 为 每 个 时 间 步 设置 掩 码 条 目 ， 代 码 如 下 
所 示 : 


INDArray mask = Nd4j.zeros(new int[]{ miniBatchSize, maxLength }); 
for (...) { 
mask.putScalar(new int[]{ miniBatchIindex, timeStep }, 1.0); 


注意 ， 这 里 只 设置 了 一 个 小 批量 索引 ， 然 后 在 掩 码 数据 结构 中 设置 了 一 个 时 间 步 索引 。 
不 需要 指定 哪些 列 有 数据 ， 只 要 特定 的 时 间 步 中 任意 列 有 数据 即 可 。 











8.5 将 文本 回 量 化 


由 于 文档 或 文章 包含 任意 数量 的 单词 ， 而 且 语料库 中 的 单词 数量 也 不 相同 ， 因 此 乍 看 上 去 
文本 的 处 理会 很 麻烦 。 如 果 每 个 文档 没有 一 个 一 致 的 “属性 ”数量 ， 那 么 最 简单 的 特征 工 
程 方法 (简单 地 复制 属性 值 ) 将 无 法 工作 。 我 们 需要 将 可 变数 量 的 属性 转换 为 一 致 数量 的 
特征 的 方法 。 有 很 多 方法 可 以 做 到 这 一 点 ， 稍 后 介绍 。 首 先 介绍 一 些 较 早 的 文本 向 量化 方 
法 ， 然 后 将 它们 与 更 现代 的 方法 比较 ， 如 Word2Vec。 接 下 来 先 介绍 自由 文本 的 基本 原理 
和 向 量 空间 模型 (vector space model，VSM) 。 


VSM 是 一 种 常用 的 文本 文档 向 量化 方法 。 在 这 个 模型 中 ， 每 个 可 能 的 单词 被 映射 到 一 个 
特定 的 整数 。 如 果 有 足够 大 的 数组 ， 每 个 单词 都 可 以 映射 到 数组 中 唯一 的 位 置 ， 每 个 索引 
处 的 值 是 单词 出 现 的 次 数 。 通 常数 组 小 于 语料库 词汇 表 ， 因 此 需要 一 个 向 量化 策略 来 解决 
这 个 问题 。 

为 了 对 文本 建 模 ， 需 要 经 历 以 下 几 个 阶段 。 


(1) 句子 分 割 : 可 根据 情况 直接 跳 转 到 分 词 阶段 。 

(2) 分 词 : 在 这 个 阶段 发 现 单独 的 词 。 

(3) 词 干 提取 : 在 这 个 阶段 找到 词 的 词根 或 词 干 (可 选 )。 
(4) 词性 还 原 *: 去 除 单词 的 不 同 届 折 变化 ， 将 其 恢复 为 基本 词 形 (可 选 )。 
(5) 移 除 停 止 词 ( 可 选 )。 














































































































注 2: 在 一 些 语言 中 ， 词 干 提取 是 词 形 还 原 的 “ 轻 量 级 ”版 本 。 
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(6) 向 量化 : 根据 前 面 的 输出 ， 产 生 浮 点 值 数组 。 


使 用 VSM 时 ， 我 们 假设 单词 有 维度 ， 并 且 彼 此 之 间 是 正 交 的 ， 这 就 类 似 于 一 个 点 的 x 和 y 
值 被 视 作 独 立 的 。 但 对 于 文本 来 说 ， 这 并 不 适用 ， 因 为 单词 之 间 有 相关 机 制 。 例 如 “田纳西 
志愿 者 ”这 样 的 产品 或 团队 的 名 称 ，“ 田 纳西 ”和 “志愿 者 ”一 起 出 现 的 概率 更 高 ， 因 此 这 
些 词 并 不 是 真正 独立 的 。 对 于 向 量化 ， 可 以 使 用 多 种 策略 。 在 下 面 的 内 容 中 ， 为 了 简单 起 
见 ， 文 本 向 量化 空间 中 最 常用 的 几 种 方法 按照 难 易 程 度 排列 ， 从 最 简单 的 到 更 高 级 的 。 


















































8.5.1 词 袋 


词 袋 是 单词 的 列表 和 每 个 词 的 数量 。 它 是 最 简单 的 向 量 模型 ， 但 由 于 涉及 单词 数量 ， 它 需 
要 使 用 很 多 列 。 通 常 将 每 个 文档 中 单词 的 数量 规范 化 ， 这 将 有 助 于 学 习 算 法 ， 使 我 们 能 够 
从 文档 的 向 量 表示 中 得 到 单词 出 现 的 概率 。 词 袋 模型 提供 了 一 个 简化 的 表示 ， 通 常用 于 自 
然 语 言 处 理 (NLP) 和 信息 检索 (IR)。 


一 组 词 或 一 个 文件 表示 为 词 袋 ， 或 词 的 多 重 集 ， 语 法 和 词 序 被 忽略 ， 但 是 我 们 仍然 跟踪 文 
档 中 单词 出 现 的 次 数 。 词 袋 向 量化 技术 在 文档 分 类 和 IR 领域 中 应 用 最 为 广泛 “。 


在 表 8-5 中 ， 向 量 对 文档 中 每 个 不 同 的 单词 都 有 索引 。 如 果 单 词 “apple” 对 应 于 0 索引 ， 
那么 每 次 在 文档 中 出 现 “apple” 这 个 单词 ， 就 在 这 个 索引 处 增加 计数 值 。 这 最 终 变 成 了 一 
个 单词 计数 的 练习 : 定义 一 组 不 同 的 单词 ， 然 后 计算 它们 出 现 的 次 数 。 当 有 不 同 的 单词 计 
数 时 ， 可 以 根据 单词 索引 映射 到 向 量 中 的 方式 构建 特征 向 量 。 在 这 个 向 量 形式 中 ， 保 持 了 
单词 出 现 的 次 数 ， 但 丢失 了 单词 的 排序 信息 。 这 种 表示 也 可 以 被 认为 等 同 于 直方 图 表示 。 


表 8-5: 向 量 空间 模型 的 直观 展示 
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通常 将 词 袋 模 型 称 为 词 频 向 量 ， 我 们 在 TF-IDF 这 样 更 精细 的 向 量化 方案 中 使 用 词 频 。TF- 
IDF 将 文档 中 单词 的 频率 乘 以 它 在 整个 语料库 中 出 现 的 稀有 度 。 在 词 袋 模型 的 其 他 变 体 中 ， 
只 使 用 1 或 0 作为 向 量 的 条 目 值 ， 用 来 表明 单词 是 否 出 现 。 词 袋 模型 需要 数据 集 的 多 次 传 
递 ， 成 本 可 能 很 高 ， 尤 其 是 对 于 较 大 的 数据 集 。 

词 袋 法 的 一 个 缺点 是 不 适用 于 短语 和 多 词 表 达 。 如 果 不 经 过 特定 的 预 处 理 ， 词 袋 无 法 处 理 
单词 可 能 的 拼写 错误 或 我 们 想 拼 出 的 单词 变形 。N-gram 和 其 他 预 处 理 技 术 在 一 定 程度 上 解 
决 了 这 两 个 问题 *。 


















































注 3: Zellig Harris 于 1954 年 发 表 的 关于 “分 布 式 结构 ”的 文章 是 词 袋 模型 的 最 早 的 出 处 之 一 (Salton 和 
McGill 的 文章 “Orderless document representation: frequencies of words from a dictionary ”发表 于 1983 年 )。 
注 4: 词 袋 模型 的 另 一 个 向 量化 变 体 是 hashing trick， 它 使 用 哈 希 函数 将 每 个 词 映射 到 固定 大 小 的 向 量 中 的 
索引 。 
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8.5.2 TF-IDF 


TF-IDF 是 解决 词 袋 模 型 一 些 固 有 问题 的 好 方法 。 单 词 在 所 有 文档 或 同一 文档 出 现 的 频率 不 
会 相同 。 使 用 TF-IDF 来 测量 单词 出 现 频率 与 该 词 作 为 标记 的 独特 性 之 间 的 相对 权重 。 
TF-IDF 给 出 一 个 统计 数字 ， 来 表示 一 个 单词 对 于 一 个 文档 以 及 一 个 文档 集合 有 多 么 重要 。 
在 及 和 文本 挖掘 中 ，TF-IDF 经 常用 作 权 重 因子 。TF-IDF 值 随 文档 中 单词 的 出 现 次 数 成 比 
例 地 增加 ， 但 同时 随 着 整个 语料库 中 词 频 的 增加 而 减少 。 这 有 助 于 TF-IDF 解释 那些 在 文 
档 中 可 能 显得 重要 ， 但 实际 上 在 整个 文档 集合 中 却 很 普通 的 单词 。 

TF-IDF 已 被 证 明 是 有 用 的 ， 因 为 它 允 许 我 们 使 用 单词 在 文档 中 出 现 的 频率 的 信息 ， 同 时 
兼顾 单词 在 语料库 中 的 频率 ， 以 便 应 对 某 些 单词 更 为 常见 的 情况 。TF-IDF 权重 由 词 成 分 、 
词 频 (TF) 和 逆 文 档 频 率 (IDF) 组 成 ， 其 中 前 者 (TF) 除 以 后 者 (IDF)。 为 了 计算 TF- 
IDF 数值 ， 从 测量 并 计算 “ 词 频 ”部 分 开始 。 










































































词 的 权重 


对 于 给 定 的 用 户 查 询 ， 搜 索引 党 经常 使 用 TF-IDF 作为 对 文档 相关 性 进行 评分 和 排序 
的 机 制 。TF-IDF 也 可 以 用 作文 本 摘要 和 分 类 的 停止 词 过 滤器 。 使 用 TF-IDF， 停 止 词 
将 被 赋予 小 的 权重 ， 而 在 整个 语料库 中 很 少 出 现 的 词 被 赋予 更 大 的 权重 。 


那些 更 重要 的 词 通常 TF 更 高 、IDF 值 更 大 ， 因 此 这 两 个 因子 的 乘积 更 大 。 在 TF-IDF 
的 经 典 版 本 中 ， 停 止 词 被 分 配 了 一 个 小 的 权重 ， 而 很 少 出 现 的 词 被 分 配 了 一 个 更 大 的 
权重 。 这 使 得 我 们 能 够 “看 出 ” 值 相对 较 高 的 词 ， 比 如 文档 的 主题 。 重 要 的 词 既 有 高 
的 TF 又 有 高 的 IDF， 其 TF-IDF 分 数 相 对 更 高 。 

除了 搜索 引 掌 之 外 ，TF-IDF 在 文本 摘要 和 分 类 领域 也 非常 有 用 。 这 个 向 量化 过 程 比 基 
本 的 词 袋 模型 更 精确 ， 但 是 计算 起 来 更 复杂 ， 因 为 需要 查看 单词 在 文档 和 整个 语料库 
中 出 现 的 频率 ， 这 涉及 不 止 一 个 数据 集 和 一 些 预 处 理 的 传递 。 

















1. TF 
TF 的 定义 是 一 个 单词 出 现在 一 组 文档 中 的 次 数 的 最 简单 形式 。 就 像 词 袋 表示 一 个 单词 在 
语料库 中 出 现 了 一 样 ，TF 表示 单词 出 现 的 频率 。 对 于 更 复杂 的 词 频 形式 ， 需 要 根据 文档 
长 度 将 次 数 规范 化 。 大 多 数 文档 的 长 度 不 会 相同 ， 根 据 这 一 点 ， 将 词 频 除 以 文档 长 度 〈 文 
档 中 所 有 词 的 总 数 ) 的 做 法 作为 将 次 数 规范 化 的 一 种 方式 ， 从 而 得 到 一 个 更 精确 的 度量 。 
1= 词 
d= 文档 


count(1) 











ta 3 





count(alltermsind) 
2. IDF 
计算 TF-IDF 的 下 一 步 是 通过 计算 单词 的 IDF 来 衡量 单词 提供 了 多 少 信息 。 我 们 想 判 断 
个 词 有 多 么 常见 或 少见 ， 于 是 使 用 这 部 分 的 公式 来 计算 ， 将 得 到 的 信息 包含 在 向 量 


这 
这 
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么 做 的 思路 是 那些 出 现在 少数 几 个 文档 中 的 词 比 在 语料库 的 许多 文档 中 都 出 现 的 词 应 该 在 
向 量 中 分 配 一 个 更 高 的 值 *。 

为 了 确定 “文档 频率 ”"， 首 先 通 过 将 语料库 中 的 文档 总 数 除 以 包含 该 词 的 文档 数 来 计算 包 
含 该 词 的 文档 分 数 。 从 这 个 值 可 以 判断 出 ， 从 考虑 的 整个 文档 组 的 角度 来 看 ， 这 个 单词 有 
多 么 少见 。 最 后 取 这 个 导出 分 数 的 对 数 ， 得 到 的 就 是 IDF。 
取 对 数 之 前 的 IDF 值 仍 然 不 理想 ， 因 为 它 稀释 了 TF 对 最 终 词 权 重 的 影响 。 为 了 减少 这 个 
影响 ， 通 常用 IDF 值 的 对 数 来 代替 ( 表 8-6 列 出 了 变量 定义 )。 

表 8-6: IDF 组 成 部 分 


idf -gl 这 | 
d, 
IDF 变 量 。 ”说明 


d 文档 频率 ， 语 料 库 中 包含 词 :的 文档 数量 
N 输入 语料库 中 的 文档 总 数 


3. TF-IDF 分 数 的 完整 计算 
因此 ， 一 个 词 的 TF-IDF 权重 的 计算 方式 如 下 : 


tidf , = tf , x idf 


要 想得到 TF-IDF 计算 的 高 权重 ， 单 词 需要 相对 于 整个 文档 语料库 具有 相对 高 的 TF 和 相对 
低 的 文档 频率 。 往 往 把 常见 的 词 过 滤 掉 ， 因 为 它们 有 低 的 TF 和 高 文档 频率 。 如 果 仔 细 查 
看 权重 的 IDF 部 分 ， 会 发 现 它 的 值 大 于 或 等 于 0。 

这 是 由 于 输入 经 过 对 数 函数 计算 的 值 总 是 大 于 或 等 于 1。 当 一 个 词 出 现在 各 个 文档 中 时 ， 对 
数 内 的 比率 接近 1。 这 将 导致 IDF 值 接近 0， 进 而 导致 TF-IDF 值 接近 0。 实 践 证 明 ，TF-IDF 
比 普通 的 词 袋 更 高 效 ， 但 是 在 预 处 理 阶 段 ， 可 以 通过 一 种 名 为 “N-gram” 的 技术 提高 效率 。 


DL4J 中 包含 了 TF-IDF 的 实现 ， 作 为 其 文本 预 处 理工 具 的 一 部 分 。 以 下 是 使 用 TF-IDF 的 
DL4J 实现 的 简单 示例 。 


File rootDir = new ClassPathResource("tripledir").getFile(); 
LabeLAwareSentenceIterator iter = new LabelAwareFileSentenceIterator(rootDir); 
TokenizerFactory tokenizerFactory = new DefaultTokenizerFactory(); 




































































TfidfVectorizer vectorizer = new TfidfVectorizer.Builder() 
.SetMinWordFrequency(1) 
.SetStopWords(new ArrayList<String>()) 
.SetTokenizerFactory(tokenizerFactory) 
.setIterator(iter) 
.build(); 


vectorizer .fit(); 


























注 5: IDF 最 初 来 自 Karen Sparck Jones 在 1972 年 提出 的 “ 词 的 特异 性 ”。 
注 6: Apache Lucene 有 一 个 TF-IDF 的 高 质量 的 实现 ， 它 也 在 JVM 中 的 许多 地 方 被 使 用 。 
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移 除 停止 词 

TF-IDF 中 一 个 常见 的 预 处 理 步骤 是 移 除 停 止 词 。 停 止 词 占据 原始 文本 的 大 部 
分 ， 这 会 极 大 地 影响 TF-IDF 权重 的 值 。 在 TF-IDF 中 ， 为 了 在 两 个 文档 向 量 
之 间 实现 更 精确 的 测量 ， 可 以 移 除 停止 词 。 停 止 词 的 例子 包括 : 


。 the 

。 What 

移 除 这 些 单词 能 极 大 地 改进 TF-IDF 度量 ， 因 为 两 个 文档 之 间 的 初始 距离 值 
由 这 些 停止 词 的 权重 支配 。 


























N-gram 
N-gram 指 来 自给 定 文本 或 语音 序列 的 NN 个 连续 项 的 序列 。N-gram 向 量化 技术 可 以 让 
向 量化 过 程 了 解 词组 在 语料库 中 一 起 出 现 的 频率 。 一 个 基本 的 TF-IDF 实现 在 向 量化 
过 程 中 不 会 拾取 相 令 单词 包含 的 信息 ， 并 且 可 能 遗漏 如 “Wall Street” 或 “Coca Cola” 
等 标识 中 的 依赖 信息 。 


我 们 在 那些 有 一 个 元 素 序 列 (如 单词 )， 并 且 我 们 想 识别 或 预测 下 一 个 单词 的 任务 中 
使 用 N-gram。 某 些 词 在 某 些 上 下 文中 比 其 他 词 更 可 能 出 现 ， 我 们 可 以 利用 这 些 信息 。 
N-gram 对 一 个 词 如 何 被 它 的 一 些 相 邻 单词 使 用 的 上 下 文 建 模 。N-gram 用 于 NLP 和 
语音 识别 ， 在 语音 识别 中 ， 单 词 被 建 模 为 一 系列 N-word。 在 语言 识别 的 应 用 中 ， 当 
我 们 试图 发 现 构成 文本 的 语言 时 ， 将 字符 序列 (或 字母 , “字母 表 中 的 字母 ") 视 为 
N-gram。 当 解析 文档 或 正文 时 ， 我 们 将 其 中 的 单词 建 模 为 每 个 N-gram 由 一 个 序列 的 
N 个 单词 构成 。 


对 于 N-gram， 需要 注意 的 是 ， 当 和 足够 大 时 ,运行 算法 的 成 本 将 变 高 。 即 使 N = 5， 
词汇 量 的 增长 也 是 相当 惊人 的 ， 所 以 应 谨慎 使 用 N-gram， 并 使 用 较 小 的 N 值 。 











核 哈 希 
文本 向 量化 中 可 以 使 用 的 另 一 种 方法 是 核 哈 希 。 事 实证 明 ， 向 量化 中 的 特征 创建 不 是 
那么 容易 的 ， 我 们 总 是 可 以 从 简化 事情 当中 受益 。 当 处 理 大 量 数据 时 ， 在 涉及 大 量 硬 
件 ， 同 时 试图 获得 良好 的 吞吐 量 的 要 求 下 ， 在 TF-IDF 中 多 次 传递 数据 很 困难 。 如 果 
想 在 一 次 传递 中 将 数据 向 量化 ， 应 使 用 核 哈 项， 使 之 成 为 “即时 ”向 量化 器 。 使 用 核 
哈 希 的 优点 是 不 需要 像 TF-IDF 那样 多 次 传递 ， 但 是 单词 之 间 有 可 能 发 生 冲 突 。 可 以 
在 将 文本 向 量化 时 ， 把 文本 提供 给 学 习 算 法 之 前 使 用 它 。 











8.5.3 Word2Vec 与 VSM 的 比较 

如 同 第 5 章 所 讨论 的 ，Word2Vec 通过 学 习 周 围 单词 的 上 下 文 ， 从 数学 上 检测 单词 之 间 的 相 
似 性 。Word2Vec 创建 向 量 ， 这 些 向 量 是 单词 特征 的 分 布 式 数字 表示 ， 例 如 单个 词 的 上 下 
文 。 具 体 说 来 ，Word2Vec 生成 一 个 词 占 入 的 列表 (向量)， 其 中 单个 向 量 表示 每 个 单词 。 
使 用 Word2Vec， 可 以 通过 理解 单词 在 多 个 句子 中 的 位 置 ， 并 将 该 位 置 与 意义 联系 起 来 ， 
进而 了 解 单词 使 用 的 语义 。 这 使 得 Word2Vec 向 量 能 够 基于 单词 神经 网 络 的 内 部 表示 来 推 
断 输 入 数据 中 的 潜在 信息 。 

Word2Vec 向 量 算法 


生成 的 词 戏 入 中 词义 和 关系 是 空间 编码 的 ， 并 且 具 有 向 量 算 法 等 有 用 的 
特性 。 


























相反 ， 向 量 空间 模型 (如 TF-IDF) 仅 使 用 来 自 输 入 文档 列表 的 同 现 统计 来 构建 。 这 样 会 有 
一 些 有 趣 的 特性 ， 例 如 能 够 计算 两 个 文档 (或 单词 ) 之 间 的 相似 性 ， 但 是 在 表示 单词 或 文 
当 之 间 的 语义 或 句法 关系 方面 受到 限制 〈 只 使 用 语料库 中 的 同 现 信息 )。 


如 前 所 述 ，Word2Vec 的 向 量 表示 使 我 们 有 新 的 方法 来 理解 原始 文本 、 进 行 推荐 和 图 形 建 
模 。 关 于 构造 Word2Vec (和 段落 向 量 ) 的 代码 示例 ， 请 参阅 第 5 章 。 


8.6 ”使 用 图 形 


图 形 结构 的 向 量化 是 工程 数据 科学 流水 线 中 的 一 个 难题 。 虽 然 这 里 不 会 详尽 讨论 图 形 向 量 
七 ， 但 会 讨论 Node2Vec 的 变 体 (也 可 以 参考 第 5 章 )。 

使 用 Node2Vec， 可 以 为 一 个 图 的 每 个 顶点 〈 并 且 扩 展 到 每 个 边 ) 生成 向 量 。 可 以 像 (前 面 提 
到 过 ) 词 向 量 一 样 将 这 些 向 量 用 于 各 种 任务 ， 例 如 节点 分 类 和 推断 边 是 否 应 该 存在 (连接 )。 
Node2Vec 是 一 种 被 称 为 “DeepWalk” 的 图 形 方法 的 扩展 。DeepWalk 通过 在 图 形 上 随机 
漫步 并 执行 截断 的 方式 建立 关于 图 结构 的 局 部 信息 。 这 样 DeepWalk 就 可 以 将 对 图 的 遍 
历 访问 当 作 处 理 句 子 一 样 ， 来 学 习 图 中 的 潜在 表示 。 最 后 还 希望 你 知道 图 形 CNN， 但 是 
DL4J 框架 目前 还 不 支持 它 。 
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邻接 矩阵 
把 图 向 量化 为 邻接 矩阵 的 做 法 是 机 器 学 习 中 处 理 这 种 任务 的 一 种 常见 方法 “。 在 这 种 方 
法 中 ,使 用 方 阵 表示 有 限 图 结构 ， 其 中 徐 阵 的 行 和 列 都 有 图 中 所 有 节点 的 列表 。 邻 接 
纶 阵 是 一 个 (0, 1) 和 纶 阵 ， 对 角 被 填充 为 0 (这 意味 着 在 这 种 类 型 的 结构 中 ， 节 点 的 边 不 
能 连接 到 其 自身 )。 


本 书 将 更 多 地 介绍 能 够 直接 在 图 形 结 构 上 操作 的 方法 ， 而 不 是 构建 邻接 给 阵 的 自 定义 变 体 。 





























注 7: 类 似 的 用 于 图 形 向 量化 的 “邻接 列表 ”数据 结构 还 有 很 多 。 
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在 Spark 上 使 用 深度 学 习 和 DL4J 


路 途上 度 过 的 十 年 ， 让 我 一 夜 之 间 ， 
送 走 了 年 轻 时 光 。 

再 告诉 我 一 次 ， 我 就 会 明白 ， 

你 确定 汉 克 就 是 这 样 做 的 吗 ? 

老汉 克 真 的 就 是 这 样 做 的 吗 ? 


一 一 美国 乡村 歌手 Waylon Jennings， 歌 曲 《 你 确定 汉 克 就 是 这 样 做 的 吗 ? 》 


9.1 在 Spark 和 Hadoop 上 使 用 DL4J 的 介绍 


过 去 十 年 出 现 的 两 个 关键 数据 中 心 技术 是 Apache Hadoop 和 Apache Spark。 尤 其 是 
Hadoop， 成 为 了 数据 仓库 增长 和 演化 的 中 心 。Spark 继承 了 MapReduce 的 衣钵 ， 成 为 在 
Hadoop 上 运行 并 行 运 代 算 法 的 主流 运行 框架 

DL4J 支持 在 Spark 上 进行 网 络 训练 的 扩展 。 使 用 Spark 执行 DL4J 可 以 显著 减少 网 络 训练 
所 需 的 时 间 。 这 种 用 法 也 使 我 们 多 了 一 种 选择 ， 即 能 够 减少 随 着 输入 大 小 的 增长 而 增加 的 
训练 时 间 。 











上 云 

亚马逊 云 服务 、 谷 歌 云 和 微软 Azure 等 平台 让 人 们 只 需 花 几 美元 ， 就 能 按 需 
建立 Spark 集群 。DL4J 能 够 在 大 多 数 公共 云 基础 设施 上 运行 ', 给 了 实践 者 运 
行 深度 学 习 工 作 流 时 在 方式 和 平台 选择 上 的 灵活 性 。 























注 1: 目前 DL4J 还 不 支持 DataBrick 的 云 Spark 服务 ， 但 未 来 可 能 支持 。 
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Spark 是 一 个 常见 的 并 行 处 理 引 擎 ， 它 可 以 单独 运行 ， 也 可 以 在 Apache Mesos 集群 上 ， 或 

通过 Hadoop YARN (Yet Another Resource Negotiator: 另 一 种 资源 协商 器 ) 框架 在 Hadoop 

集群 上 运行 。 使 用 Hadoop 中 包含 的 输入 格式 ， 它 能 够 处 理 Hadoop 分 布 式 文件 系统 

(HDFS) 中 的 数据 。Spark 使 用 一 些 技术 ， 将 常用 的 数据 缓存 到 内 存 中 的 弹性 分 布 式 数据 集 

(RDD， 稍 后 介绍 )。Spark 还 允许 程序 员 抽 象 并 行 处 理 ， 将 更 多 的 注意 力 放 在 手边 的 算法 

上 。 本 书 主 要 关注 Spark 的 批 处 理 能 力 ， 将 它 应 用 于 并 行 迭 代 算法 ， 比 如 DL4J 中 的 SGD。 

以 下 是 一 个 Spark 作业 的 关键 组 件 。 

口 应 用 程序 
所 编译 的 Spark 作业 的 jar 代表 Spark 应 用 程序 。 它 可 以 是 一 个 作业 、 链 接 在 一 起 的 多 
个 作业 ， 或 者 是 一 个 交互 式 的 Spark 会 话 。 

口 Spark 驱动 器 
Spark 驱动 器 运行 Spark 上 下 文 并 将 应 用 程序 转换 成 任务 的 有 向 图 。 这 些 任 务 在 集群 上 
被 调度 运行 。 每 个 Spark 应 用 只 有 一 个 驱动 器 。 

口 Spark 应 用 主 控 器 
当 通 过 YARN 在 Hadoop 上 运行 Spark 时 ，Spark 应 用 主 控 器 与 YARN 在 集群 上 协调 资 
源 。 每 个 Spark 应 用 程序 都 有 一 个 应 用 主 控 器 。 

口 Spark 执行 器 
执行 器 在 其 运行 的 本 地 主机 上 执行 单个 JVM 实例 的 多 个 任务 。Spark 驱动 器 指示 长 期 
运行 的 执行 器 需要 运行 哪些 任务 。 单 个 主机 在 其 本 地 可 以 有 多 个 Spark 执行 器 。 最 终 集 
群 中 可 能 有 100 多 个 甚至 1000 多 个 执行 器 ， 这 些 执 行 器 分 布 在 多 台 机 器 上 ， 同 时 运行 
不 同 的 Spark 应 用 程序 。 

口 Spark 任务 

Spark 任务 表示 执行 器 中 处 理 部 分 分 布 式 数 据 集 的 工作 单元 。 


口 RDD 
RDD 是 可 以 并 行 处 理 的 元 素 的 容错 集合 。 














































































































RDD 
RDD 是 Apache Spark 中 的 核心 概念 。 这 些 数据 集 是 可 以 并 行 处 理 的 元 素 的 容错 集合 。 
RDD 上 的 操作 由 高 级 语言 代码 编译 ， 使 得 程序 员 可 以 更 多 地 多 关注 算法 和 业务 问题 ， 
而 较 少 考虑 执行 方面 的 分 布 式 系统 管理 的 事情 。 
以 下 是 在 Spark 程序 中 创建 RDD 的 两 种 常见 方法 : 
。 在 Spark 应 用 中 并 行 化 现 有 的 集合 ; 
。 引用 外 部 存储 系统 中 的 数据 集 。 
外 部 存储 系统 包括 HDFS、HBase、Cassandra 或 与 Hadoop InputFormat 兼容 的 其 他 任 
何 系统 ， 实 践 中 最 常用 的 是 HDFS，、 
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Apache Hadoop 包括 一 组 并 行 处 理工 具 (如 MapReduce) 和 用 Java 编写 的 分 布 式 文件 系统 
(如 HDFS)。 它 是 基于 谷歌 的 MapReduce 和 谷歌 文件 系统 (Google File System，GFS) 发 
布 的 设计 。Hadoop 最 初 是 为 了 并 行 化 Apache Lucene 搜索 引擎 的 反 向 索引 结构 而 构建 的 ， 
是 Apache Nutch 项 目的 一 部 分 。Hadoop 项 目 由 Doug Cutting 和 Mike Cafarella 开创 ， 最 终 
吹 响 了 搜索 引擎 基础 设施 普及 化 的 号 角 ， 随 后 引发 了 数据 仓库 构建 方式 的 革命 。2008 年 1 
月 ，Hadoop 从 Nutch 项 目 中 分 离 出 来 ， 成 为 了 Apache 的 顶级 项 目 。 


雅虎 公司 内 部 采用 该 技术 ， 并 将 急需 的 工程 资源 投入 到 项 目 中 ， 进 一 步 孵 化 了 Hadoop 项 
目 。2008 年 4 月 ，Hadoop 声称 创造 了 一 项 世界 纪录 : 在 仅仅 209 秒 内 〈 在 一 个 有 910 
个 节点 的 Hadoop 集群 中 ) 完成 了 1TB 数据 的 排序 。 到 2009 年 ， 许 多 公司 ， 如 last.fm.、 
Facebook、 纽 约 时 报 ， 甚 至 田纳西 河流 域 管理 局 ， 都 把 Hadoop 看 作 使 用 普通 的 硬件 对 大 
量 数据 作 并 行 处 理 的 一 种 实用 方法 。 今 天 ， 多 个 Hadoop 分 发 供应 商 已 经 把 Hadoop 推广 到 
财富 500 强 企业 及 其 他 企业 。Apache Hadoop 已 经 成 为 现代 数据 仓库 的 基础 设施 ， 并 且 是 
企业 运行 环境 的 事实 上 的 标准 。 

DL4J，Spark 和 Hadoop 

DL4J 从 诞生 之 日 起 就 被 设计 为 Hadoop 环境 的 一 等 公民 。DL4J 可 以 在 单独 

的 Spark 上 、 在 Mesos 的 Sparkk 上 ， 或 者 通过 YARN 框架 在 Hadoop 集群 

上 的 Spark 上 运行 。 使 用 DL4J 进行 实验 的 实践 者 也 许 只 在 Spark 的 集群 上 

使 用 DL4J， 但 是 大 型 企业 往往 在 Mesos 上 ,或 者 YARN 管理 下 所 支持 的 

Hadoop 集群 上 操作 Spark。 





















































从 命令 行 操 作 Spark 

通常 从 命令 行 运行 Spark 作业 ， 并 配置 多 个 参数 。 下 面 解释 从 命令 行 运行 Spark 作业 的 基 
础 知识 ， 以 及 处 理 不 同 选 项 的 方法 。 

1. spark-submit 

spark-submit 的 bash 脚本 是 向 集群 提交 作业 的 方式 。 以 下 是 在 Hadoop 集群 (CDH.、 
HDP) 上 (通过 YARN) 运行 Spark 作业 的 spark-submit 命令 及 其 所 需 的 命令 行 选 项 。 


spark-submit --class [class name] --master yarn [jar name] 
[job options] 


下 面 是 对 前 面 的 命令 行 中 每 个 选项 的 说 明 。 
口 类 名 (class name) 
这 里 指 完 全 限定 的 类 名 。 
口 jar 名 (jar name ) 
jar 名 指 路 径 和 jar 文件 名 ， 也 称 “ 超 级 jar”， 它 包含 运行 该 作业 所 需 的 所 有 内 容 。 
口 作业 选项 (job options) 
作业 选项 指 Spark 作业 所 使 用 的 各 种 选项 。 
































示例 如 下 : 


spark-submit --class io.skymind.spark.SparkJob --master yarn 
/tmp/Skymind-SNAPSHOT.jar /user/skymind/data/iris/iris.txt 


在 这 个 作业 中 ， 我 们 运行 jar Skymind-SNAPSHOT.jar 中 的 io.skymind.spark.SparkJob 类 ， 
这 个 作业 有 一 个 参数 详细 描述 了 输入 数据 的 位 置 。 

如 果 想 在 运行 时 从 命令 行 更 改 某 些 作业 的 配置 属性 ， 可 以 在 命令 行 上 放置 额外 的 参数 或 在 
特殊 的 配置 文件 中 指定 它们 ， 如 下 所 示 : 

















spark.master spark://mysparkmaster .skymind.com:7077 
spark.eventLog.enabled true 

spark.eventLog.dir hdfs:///user/spark/eventlog 

# Set spark executor memory 

spark.executor .memory 29 

spark.LogConf true 


像 前 面 示例 中 的 那样 ， 将 配置 关键 值 放 入 文本 文件 中 是 实用 的 做 法 ， 这 样 可 以 使 作业 执行 
得 更 快 ， 更 易于 管理 。 通 常 这 个 文本 文件 放 在 作业 jar 所 在 的 本 地 目录 中 ， 并 在 从 命令 行 
运行 作业 时 引用 它 。 

2. 使 用 Hadoop 安 全 和 Kerberos 

Kerberos 是 一 种 常见 的 企业 级 认证 系统 。Kerberos 提供 了 免 受 诸如 拦截 认证 等 攻击 的 支持 。 
它 还 可 以 通过 不 在 网 络 中 直接 用 明文 发 送 凭据 的 做 法 ， 帮 助 系统 阻止 用 户 伪 造 请 求 的 威 
胁 。( 如 果 你 对 安全 相关 内 容 不 感 兴 趣 ， 可 转 到 9.2 节 。) 

主流 的 Hadoop 发 行 版 ， 如 CDH 和 HDP 均 支 持 Kerberos 身份 验证 。 


在 Hadoop 发 行 版 上 运行 的 验证 
Skymind (对 DL4J 的 商业 支持 ) 经 过 验证 ， 确 保 新 版 本 的 DL4J 能 够 在 新 版 
本 的 CDH 和 HDP 上 运行 。 











可 以 选择 将 Kerberos 凭据 存储 在 轻 量 级 目录 访问 协议 (LDAP) 或 活动 目录 服务 (Active 
Directory，Windows 操作 系统 的 组 件 ) 中 。 


要 在 Kerberos 管理 下 的 YARN 集群 上 运行 Spark， 需 要 做 以 下 两 件 事 : 


(1) 手动 将 打包 好 的 Spark jar 上 传 到 HDFS; 
(2) 在 命令 行 初始 化 Kerberos。 


上 传 Spark 打包 文件 。 首 先 手动 将 打包 好 的 Spark jar 上 传 到 HDFS 目录 : 
/user/spark/share/lib 

打包 好 的 Spark jar 通常 位 于 本 地 文件 系统 的 以 下 目录 中 
/usr/Lib/spark/assembLy/Lib 

或 者 ， 在 CDH 上 的 目录 是 : 
/opt/cLoudera/parceLs/CDH/Lib/spark/assembLy/Lib 
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当 在 HDP 上 运行 Spark 作业 时 ， 库 被 上 传 到 HDFS， 因 此 运行 该 作业 的 用 户 需 要 有 对 
HDFS 进行 写 入 的 权限 (http://bit.ly/2tZVQzw)。 





关于 Kerberos 和 Spark 的 说 明 

在 Kerberos 管理 的 集群 中 ， 如 果 在 没有 手动 将 jar 上 传 到 HDFS 的 情况 下 运 
行 Spark 作业 ， 那 么 作业 将 失败 ， 上 传 jar 的 命令 (作为 作业 的 一 部 分 运行 ) 
将 静默 失败 ， 因 为 Spark 对 Kerberos 的 支持 是 有 限 的 。 

















初始 化 Kerberos。 要 初始 化 Kerberos， 首 先 输入 以 下 内 容 : 
kinit [user-name] 

你 将 会 被 提示 输入 密码 。 在 Kerberos 初始 化 之 后 ， 可 以 用 以 下 命令 确认 是 否 有 Kerberos 票据 。 
klist 

其 输出 的 显示 内 容 如 下 所 示 ， 从 输出 中 可 以 看 出 Kerberos 票据 是 活动 且 有 效 的 。 
[skymind@sandbox ~]$ klist 














Ticket cache: FILE:/tmp/krb5cc_1025 


Default principal: skymind@HORTONWORKS .COM 


Valid starting Expires Service principal 
07/05/16 20:39:08 07/06/16 20:39:08 krbtgt/HORTONWORKS .COM@HORTONWORKS .COM 


renew until 07/05/16 20:39:08 


9.2 配置 和 调 优 Spark 运 行 


Spark 可 以 在 不 同类 型 的 分 布 式 平台 上 运行 ， 也 可 以 在 本 地 单机 上 运行 。 本 章 重 点 介绍 
在 基于 YARN 的 Hadoop 集群 和 基于 Mesos 的 集群 上 运行 的 Spark。Cloudera 的 CDH 或 
Hortonworks 的 HDP 发 行 版 的 企业 用 户 以 及 Apache Mesos 集群 管理 系统 的 用 户 应 该 对 这 
些 系统 很 熟悉 。 


Spark 能 够 以 不 同 的 方式 执行 ， 这 取决 于 执行 是 否 是 分 布 的 ， 以 及 作业 运行 时 Spark Driver 
进程 在 哪里 执行 。 了 解 这 些 关 于 Spark 运行 的 基本 概念 将 有 助 于 你 从 在 本 地 运行 的 简单 作 
业 迁 移 到 在 集群 上 运行 长 期 作业 ， 可 以 断 开 与 集群 的 连接 ， 让 作业 夜间 在 集群 上 运行 。 
每 个 Spark 应 用 程序 都 有 一 个 可 以 在 前 台 (客户 端 模 式 ) 或 后 台 (集群 模式 ) 运行 的 驱动 
进程 。 假 如 关闭 了 前 台 客 户 端 ， 作 业 将 停止 ， 因 为 我 们 停止 了 控制 集群 上 作业 的 本 地 进 
程 。 但 是 可 以 退出 后 台 客 户 端 并 让 Spark 作业 继续 运行 ， 因 为 作业 控制 器 在 另 一 个 主机 上 
运行 。 这 个 活动 的 驱动 进程 被 Spark 用 来 管理 作业 流程 和 调度 Spark 任务 。 


在 客户 端 模式 下 ，Spark 驱动 进程 在 它 被 执行 的 本 地 机 器 上 运行 。 在 集群 模式 下 ，Spark 驱 
动 进程 在 集群 本 身 的 远程 机 器 上 运行 。 
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9.2.1 在 Mesos 上 运行 Spark 


你 可 能 青睐 在 Spark 支持 的 Apache Mesos 集群 管理 器 下 以 分 布 式 模式 运行 Spark， 而 不 使 
用 Hadoop 发 行 版 。Mesos 是 用 户 从 物理 机 器 本 身 抽象 出 CPU、 内存、 存储 和 其 他 计算 资 
源 的 一 种 方法 。 它 允许 我 们 将 机 器 集群 视 为 单个 逻辑 资源 池 ， 从 而 能 够 更 高 效 地 运行 支持 
容错 的 多 租户 系统 。 

当 使 用 Mesos 管理 集群 时 ，Mesos master 将 代替 Spark master， 成 为 集群 的 管理 者 。 在 这 种 
模式 下 ， 当 驱动 程序 创建 Spark 作业 和 要 调度 的 任务 时 ，Mesos 将 确定 哪个 机 器 处 理 哪个 
任务 。Mesos 集群 上 将 存在 许多 短期 任务 ， 并 且 Mesos 能 够 分 配 集群 上 那些 使 用 其 他 框架 
的 多 租户 的 任务 。 


在 Mesos 上 使 用 Spark 有 两 种 主要 模式 : 
客户 端 模式 
集群 模式 
在 客户 端 模 式 下 ，Spark Mesos 框架 直接 在 客户 端 机 器 上 启动 ， 并 等 待 用 户 输入 命令 或 运 
行程 序 。 用 户 将 直接 在 屏幕 的 控制 台 上 看 到 驱动 程序 的 输出 。 
要 在 客户 端 模式 下 使 用 Spark 在 Mesos 上 运行 一 个 作业 ， 需 要 执行 以 下 步骤 : 


(1) 在 spark-env.sh 中 设置 某 些 与 Mesos 有 关 的 环境 变量 ， 
(2) 将 正确 的 Mesos 集群 URL 传递 到 SparkContext。 


在 集群 模式 下 ，Spark 驱动 器 在 集群 本 身 的 主机 上 启动 ， 用 户 可 以 从 Mesos Web UI 看 到 
作业 的 结果 。 在 集群 模式 下 ， 需 要 通过 sbin/start-mesos-dispatch.sh 脚本 以 及 Mesos 主 节点 
的 正确 URL 地 址 ， 在 集群 中 启动 MesosCLusterDispatcher。 可 以 像 以 前 一 样 使 用 spark- 
submit.sh 脚本 ， 但 是 需要 包括 MesosCLusterDispatcher 主 节点 的 URL， 示 例如 下 所 示 : 


./bin/spark-submit \ 
--Class io.skymind.spark.mesos.MyTestMesosJob \ 
--master mesos://210.181.122.139:7077 \ 
--deploy-mode cluster \ 
--supervise \ 
--executor-memory 20G \ 
--total-executor-cores 100 \ 
/tmp/mySparkJob.jar \ 
1000 

























































































要 了 解 更 多 关于 在 Mesos 上 使 用 Spark 的 信息 ， 请 查看 Apache 网 站 介绍 
Spark 的 页 面 的 “在 Mesos 运行 ”一 节 。 访 页面 有 一 个 完整 的 清单 ， 列 出 了 
Mesos 作业 的 关键 配置 选项 。 

















还 有 一 种 场景 ， 你 可 能 想 在 同一 台 机 器 上 将 Spark 和 Mesos 与 现 有 的 Hadoop 集群 一 起 作 
为 单独 的 服务 运行 。 在 此 场景 中 ，Mesos 上 的 Spark 作业 可 以 通过 HDFS 中 的 完全 限定 
URL 地 址 来 访问 HDFS 中 的 数据 。 
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9.2.2 ”在 YARN 中 执行 Spark 


YARN 是 对 通用 目的 的 应 用 程序 公开 的 Hadoop API， 人 允许 程序 作为 一 等 公民 和 MapReduce 
一 起 运行 。 目 前 YARN 上 的 Spark 实现 支持 以 下 面 两 种 模式 执行 Spark 作业 : 


。 yarn-client 





。 yarn-cluster 


YARN 应 用 包含 ApplicationMaster 和 NodeManager 的 概念 。 





YARN、ApplicationMaster 和 NodeManager 
ApplicationMaster 跟踪 Hadoop 集群 中 特定 作业 的 资源 和 执行 情况 。NodeManager 分 配 
执行 作业 任务 的 YARN 容器 。 本 节 的 目的 不 是 向 你 灌输 更 多 的 分 布 式 系统 术语 ， 而 是 
提供 一 些 对 Hadoop 生产 集群 内 所 发 生 的 事情 的 说 明 。 

在 执行 Spark 时 ，Spark 执行 器 在 YARN 容器 内 运行 ，Spark 作业 由 Spark ApplicationMaster 
协调 。 你 只 需要 意识 到 这 些 过 程 ， 以 更 好 地 了 解 它们 如 何 、 在 哪里 、 何 时 运行 Spatk 作业 。 











每 个 Spark 执行 器 作为 YARN 容器 运行 “。Spark 在 同一 个 容器 中 承载 多 个 任务 ， 使 任务 启 

动 快 了 几 个 数量 级 。 

下 面 详 细 了 解 每 种 模式 。 

口 yarn-client 

在 yarn-client 模式 下 ，Spark 驱动 器 在 提交 作业 的 机 器 上 执行 。 很 多 时 候 是 从 开发 者 的 
本 地 笔记 本 电脑 通过 网 络 连 接 到 集群 。 
Spark 驱动 器 与 Hadoop 集群 中 的 Spark ApplicationMaster 通信 ， 并 发 出 指令 ， 这 些 指 
令 将 在 YARN 容器 中 的 Spark 执行 器 上 作为 任务 执行 。 

口 yarn-cluster 
Spark 驱动 器 在 基于 YARN 的 Hadoop 集群 (HDP .CDH) 中 的 ApplicationMaster 上 远 
程 运 行 。YARN ApplicationMaster 从 YARN 获取 输入 ， 协 调 作 业 ， 也 运行 Spark 驱动 
器 进程 。 以 这 种 方式 运行 的 Spark 作业 允许 用 户 关闭 自己 的 客户 端 或 终端 会 话 ， 而 仍然 
能 完成 作业 。 

Spark 执 行 模式 的 比较 

表 9-1 给 出 了 在 YARN 的 不 同 模式 下 运行 Spark 的 快速 总 结 。 这 张 表 最 初 是 由 Sandy Ryza 

为 Cloudera 的 技术 博客 (http://bit.ly/2tZYx4r) 编写 的 。 
























































注 2; 不 要 与 Linux 容器 的 概念 混淆 ， 这 是 一 个 不 同 的 概念 。 
注 3: 参考 http:/bit.ly/2tQmuuh， 然 后 从 NiFi 启动 远程 Spark 作业 。 
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表 9-1: 理解 YARN 支 持 的 各 种 Spark 运 行 模式 








YARN cluster YARN client Spark 独 立 运行 

驱动 程序 哪里 运行 ? ApplicationMaster 客户 端 客户 端 

谁 请 求 资 源 ? ApplicationMaster ApplicationMaster 客户 端 

谁 开 始 执行 进程 ? YARN NodeManager YARN NodeManager Spark worker 

持久 化 服务 YARN ResourceManager 和 YARN ResourceManager 和 Spark Master 和 worker 
NodeManager NodeManager 

是 否 支 持 Spark Shell? ” 否 是 是 


何 时 使 用 哪 种 YARN 上 的 Spark 运行 模式 


当 在 YARN 上 交互 调试 Spark 作业 时 ， 我 们 可 能 使 用 yarn-client 模式 。 对 于 长 
期 运行 或 计划 在 生产 环境 运行 的 Spark 作业 ， 我 们 可 能 使 用 yarn-cluster 模式 。 











为 什么 要 在 YARN 或 Mesos 上 运行 Spark 


Hadoop 中 的 YARN 框架 允许 MapReduce 以 外 的 应 用 程序 利用 Hadoop 中 的 执行 环境 。 
在 YARN 上 运行 Spark 使 用 户 能 够 : 


。 在 不 同 的 并 发 应 用 程序 和 框架 之 间 动 态 共 享 和 中 心 化 配置 同一 个 集群 资源 池 ; 

。 利用 YARN 调度 器 ， 在 应 用 程序 之 间 实 现 更 好 的 并 发 性 

。 动态 分 配 和 榨 制 集群 中 单个 Spark 应 用 程序 在 任意 给 定时 间 使 用 执行 器 的 数量 ; 
。 Kerberos 支持 “。 


能 够 在 多 个 应 用 程序 之 间 动 态 共 享 集群 是 企业 生产 系统 的 一 个 重要 特性 。 这 意味 着 可 
ss 同一 个 集群 上 同时 运行 Inpala 查询 、MapReduce 作业 和 Spark 应 用 程序 ， 并 通过 
一 些 合理 的 方式 控制 每 个 应 用 程序 消耗 多 少 资源 。 使 用 YARN 或 Mesos 调度 器 使 我 
0 查询 ， Be fe 并 确保 为 生产 
作业 分 配 了 足够 的 资源 ， 以 履行 所 需 的 服务 水 平 协议 (SLA)。 这 是 因为 YARN 以 及 
Mesos 都 懂得 以 可 预 te 管理 资源 的 方式 管理 多 个 框架 。 


在 同一 集群 上 运行 许多 类 型 的 工作 负载 的 多 租户 环境 中 ，YARN 和 Mesos 对 DevOps 
最 友好 。 





9.2.3 ”Spark 调 优 简要 介 和 


概括 地 讲 ， 可 以 从 两 个 主要 的 调 优 方向 来 调整 Spark 作业 : CPU 和 内 存 。 我 们 可 以 设置 执 
行 器 的 数量 、 每 个 执行 器 使 用 的 内 核 数量 ， 以 及 每 个 执行 器 处 理 时 所 需 的 内 存量 。 


























注 


E 4: 除了 Kerberos 支持 外 ，Mesos 支持 大 部 分 操作 。 
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Mesos 和 GPU 
在 Mesos 下 ， 也 可 以 选择 管理 GPU， 而 YARN 目前 还 不 支持 GPU。 











1. 设置 执行 器 的 数量 
可 以 用 命令 行 参数 或 配置 文件 属性 设置 应 用 程序 执行 器 的 数量 。 设 置 命令 行 参 数 的 方法 
如 下 : 

--Num-executor 
设置 配置 文件 属性 的 属性 键 如 下 所 示 : 

spark.executor .instances 
可 以 在 spark-defaults.conf 文件 、 另 外 的 Spark 配置 文件 或 API 中 的 SparkConf 对 象 中 设置 它 。 
2. Spark 执 行 器 和 CPU 内 核 
Spark 应 用 程序 中 每 个 执行 器 都 有 相同 数量 的 内 核 可 用 。 可 以 用 命令 行 参数 或 配置 文件 属 
性 设置 它 。 设 置 命令 行 参数 的 方法 如 下 所 示 : 

--executor-cores 
设置 配置 文件 属性 的 属性 键 如 下 所 示 : 

spark.executor .cores 


可 以 在 spark-defaults.conf 文件 ， 另 外 的 Spark 配置 文件 或 API 中 的 SparkConf 对 象 中 设置 它 。 


执行 器 内 核 和 并 发 执行 器 任务 
当 在 批 处 理 模 式 下 为 Spark 设置 每 个 执行 器 使 用 的 内 核 数量 时 ， 我 们 就 有 效 
地 设置 了 要 同时 执行 的 任务 数量 。 




















3. Spark 执 行 器 和 内 存 
类 似 于 执行 器 控制 内 核 的 方式 ， 可 以 通过 以 下 方式 控制 每 个 执行 器 的 堆 大 小 。 
- -executor-memory 
此 外 ， 也 可 以 列 出 每 个 执行 器 分 配 的 单位 为 兆 字 节 (MB) 或 千 兆 字 节 (GB) 的 内 存 大 
小 。 也 可 以 从 属性 配置 文件 中 设置 这 个 属性 ， 如 下 所 示 : 
spark.executor .memory 


在 spark.executor .memory 中 ， 有 两 种 方法 可 以 进一步 控制 Spark 中 的 内 存 使 用 。 


spark.shuffle.memoryFraction 





spark.storage.memoryFraction 


这 两 个 设置 控制 执行 器 在 转换 数据 和 持久 化 数据 之 间 划 分 内 存 。 下 面 详细 了 解 这 两 个 设置 。 

















口 spark.shuffle.memoryFraction 
在 Spark 的 混 洗 过 程 中 ，spark.shuffle.memoryFraction 控制 聚合 和 组 合 所 需 的 Java 堆 
内 存 的 数量 。 默 认为 0.2， 建 议 至 少 在 早期 保留 这 个 设置 值 。 

口 spark.storage.memoryFraction 
spark.storage.memoryFraction 控制 Spark 管 时 缓存 的 RDD 的 总 大 小 。 默 认 值 为 0.6， 
它 控制 Java 堆 内 存 中 Spark 所 需 的 内 存 缓存 的 比例 。 这 会 确保 执行 器 的 内 存 使 用 不 会 
超出 RDD 堆 空间 与 这 个 值 的 积 。 


Spark 执行 器 也 会 有 开销 ， 使 用 以 下 设置 来 管理 。 
口 spark.yarn.executor.memoryOverhead 


该 设置 控制 着 分 配给 每 个 执行 器 的 非 堆 内 存 的 量 。 此 内 存 用 于 虚拟 机 开销 、 驻 留 字符 串 
和 其 他 本 地 开销 。 


默认 值 为 (executorMemory*0.10)， 最 小 值 为 384MB。 
4. Spark 和 YARN 容 器 的 资源 分 配 


当 在 YARN 上 使 用 Spark 时 , 必须 考虑 YARN 可 用 的 资源 ”, 要 考虑 的 主要 YARN 属性 如 下 
所 示 : 


。 yarn.nodemanager .resource.memory-mb 




























































































间 yarn.nodemanager .resource.cpuyu-vcores 


口 yarn.nodemanager.resource.memory-mb 
yarn.nodemanager .resource.memory-mb 控制 Spark 集群 中 每 个 主机 上 容器 使 用 的 最 大 内 
存量 。 

口 yarn.nodemanager.resource.cpu-vcores 
yarn.nodemanager .resource.cpu-vcores 控制 Spark 集群 中 每 个 主机 上 容器 使 用 的 最 
大 内 核 数 量 。 如 果 为 Spark 作业 请 求 10 个 执行 器 内 核 ， 这 将 向 YARN 请 求 10 个 虚拟 
内 核 。 


5. 理解 执行 器 在 YARN 中 的 内 部 请 求 

参数 spark.executor .memory 控制 执行 器 堆 大 小 , 但 JVM 也 会 使 用 非 堆 内 存 。 为 了 计算 完整 
的 YARN 内 存 请 求 ， 需 要 将 spark.executor.memory 和 spark.yarn.executor .memoryOverhaul 
相 加 ， 以 得 到 完整 的 YARN 内 存 请 求 量 。 图 9-1 直观 地 显示 了 这 一 点 。 












































注 5: 还 应 注意 ，YARN 在 分 配 上 优 于 Spark， 因 为 Spark 进程 在 受 限 的 YARN 容器 中 运行 。 
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yarn.nodemanagerresource.memory-mb 


Spark Executor - YARN Container 





spark.executormemory 
spark.yarn.executor 
-memoryOverhead spark.shuffle.memory spark.storage.memory 
Fraction Fraction 


9-1: YARN 中 Spark 内 存 的 层次 结构 














将 spark.yarn.executor.memoryOverhead 和 spark.executor.memory 的 值 相 加 ， 可 得 出 Spark 
执行 器 完整 的 内 存 请 求 量 。 

注意 需要 请 求 多 少 内 存 

如 果 spark.yarn.executor.memoryOverhead 和 spark.executor .memory 之 和 大 


于 YARN 中 yarn.nodemanager.resource.memory-mb 设置 的 值 ， 那 么 作业 将 不 
会 启动 ， 因 为 它 无 法 从 YARN 系统 分 配 到 所 需 的 容器 资源 。 





spark.shuffle.memoryFraction 的 默认 值 为 0.2，spark.shuffle.safetyFraction 的 默认 值 
为 0.8。 计 算 每 个 执行 器 任务 可 用 内 存 的 数量 的 公式 如 下 所 示 : 


( spark.executor.memory * spark.shuffle.memoryFraction 
* spark.shuffle.safetyFraction ) / spark.executor.cores 


已 经 介绍 了 足够 多 调 优 Spark 和 YARN 的 内 容 ， 希 望 你 可 以 就 此 开始 了 。 需 要 注意 ， 对 
Spark 和 YARN 调 优 的 设置 还 有 很 多 ， 但 本 书 不 会 涉及 。 
扩展 阅读 
阅读 Cloudera 的 技术 博客 网 站 中 的 由 Sandy Ryza 写 的 博客 (http://bit.ly/ 
2tZYx4r) ， 了 解 更 多 的 Spark 调 优 技巧 。 





6. 理解 Spark、JVM 和 垃圾 回收 

Spark 下 的 JVM 调 优 的 主题 庞大 而 复杂 ， 基 于 本 书 的 内 容 ， 我 们 总 结 了 几 个 关键 的 主题 ， 
帮助 你 在 需要 的 时 候 进 一 步 了 解 。 

处 理 垃 圾 回收 速度 慢 或 停顿 的 问题 。 实 践 者 应 该 检查 并 确定 Spark 应 用 程序 是 否 高 效 地 使 
用 了 所 分 配 的 内 存 。 如 果 RDD 占用 了 大 量 内 存 ， 执 行 器 的 工作 空间 会 变 少 ， 进 而 导致 性 


能 下 降 。 











如 果 垃 圾 回收 频繁 发 生 ， 说 明 Spark 需要 更 高 效 地 使 用 内 存 。 在 已 缓存 的 RDD 不 再 使 用 
以 后 ， 对 其 进行 显示 清理 ， 来 缓解 这 些 问题 。 


为 JVM 和 Spark 选择 垃圾 收集 器 。 通常 推荐 对 Spark 执行 器 使 用 G1 垃圾 收集 器 。 


9.2.4 对 在 Spark 上 运行 的 DL4J 作 业 调 优 

之 前 经 讨论 了 Spark 作业 调 优 的 基本 机 制 ， 下 面 了 解 如 何 对 在 Spark 上 工作 的 DL4J 作业 调 
优 。 就 像 通常 的 Spark 调 优 一 样 ， 我 们 可 以 控制 DL4J 作业 中 以 下 三 个 主要 因素 : 

。 worker (执行 器 ) 数量 ; 

。 每 个 worker 可 使 用 的 内 存量 ; 

。 每 个 worker 可 使 用 的 内 核 数 。 


接 下 来 介绍 这 些 因 素 是 如 何 影响 深度 学 习 模 型 的 训练 的 。 

1. 调整 执行 器 的 数量 

当 为 Spark 作业 添加 更 多 的 执行 器 (worker) 时 ， 可 以 将 数据 分 为 更 多 的 分 区 ， 并 使 每 个 
worker 处 理 更 少 的 记录 ， 这 将 减少 总 的 训练 时 间 。 

减少 回报 与 执行 器 

增加 更 多 的 执行 器 (超过 某 一 临界 点 ) 会 导致 每 单位 训练 时 间 可 获得 的 准确 
度 投资 回报 减少 。 尤 其 是 在 将 worker 的 数据 细 分 为 小 批量 ， 使 worker 数量 

与 数据 分 片 相同 之 后 ， 就 不 能 继续 细 分 了 。 增 加 worker 将 是 无 用 的 ， 因 为 
worker 将 没有 数据 可 处 理 。 






























































2. 为 执行 器 调整 内 存量 
单个 小 批量 的 训练 记录 将 作为 单个 矩阵 或 数据 块 发 送 到 ND4J， 以 向 量化 的 方式 被 处 理 。 
这 使 得 硬件 使 用 更 高 效 。 控 制 小 批量 大 小 很 重要 ， 因 为 它 不 仅 影 响 学 习 ， 而 且 影 响 执行 器 
所 需 的 内 存量 。 
执行 器 需要 处 理 的 小 批量 的 记录 数量 越 多 ， 需 要 分 配给 执行 器 的 内 存 就 越 多 。 如 果 对 执行 
器 使 用 的 内 存 有 限制 ， 必 须 注意 不 要 将 小 批量 设置 得 太 多 。 
内 存 使 用 的 经 验 法 则 
对 于 浮 点 数据 (最 常见 ) : 每 个 值 4 字 节 ， 加 上 一 些 开 销 。 下 面 是 几 个 例子 。 
MNIST 数据 (小 ) : 28 x 28 = 784 一 每 个 样本 约 3KB (加 上 标签 : 10 个 值 )。 
具有 256 个 输入 、1000 个 时 间 步 的 时 间 序 列 一 每 个 样本 特征 1MB (加 上 标签 )。 
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理解 并 行 性 能 
和 夫 代 算法 的 并 行 训练 对 收 仇 有 一 些小 的 的 影响 。DL4J 的 分 布 式 深度 学 习 的 用 户 可 以 选 
择 小 批量 的 大 小 ， 并 且 该 软件 将 在 Spark 中 的 worker 之 间 最 优 地 分 配 工作 负载 。 这 类 
似 于 Hadoop 的 最 优 输 入 分 片 。 系 统 将 可 用 的 处 理 单 元 的 数量 最 大 化 ， 自 动 水 平 缩放 。 
在 YARN 上 ， 或 在 基于 Hadoop 的 Spark 等 运行 时 上 直接 运行 DL4J， 在 基于 Hadoop 
的 InputSplit (或 HDFS 数据 块 ) 系统 数据 集 分 片上 运行 Worker， 这 也 将 使 每 个 worker 
的 磁盘 IO 得 到 良好 的 平衡 。 


在 实践 中 ， 以 参数 平均 为 参数 向 量 值 的 正则 化 器 ， 通 常 建议 首先 增加 10% 轮 数 的 训练 
用 于 人 额外 的 正则 化 。 虽 然 训 练 论 数 略 有 增加 ， 但 得 益 于 训练 所 用 的 Spark 执行 器 的 数 
量 ， 执 行 每 轮训 练 的 时 间 会 而 减少 。 

一 些 设置 (如 罕见 的 平均 周期 ) 将 需要 更 多 轮 的 训练 。 对 每 个 小 批量 取 平 均 的 做 法 
(表现 不 佳 ， 故 不 推荐 ) 应 该 非常 类 似 于 本 地 训练 (每 次 近代 的 小 批量 大 小 等 于 所 有 执 
行 器 的 样本 总 数 ) 。 








9.3 为 Spark 和 DL4J 建 立 Maven 项 目 对 象 模型 


建立 Maven 项 目 对 象 模型 (POM) 文件 是 构建 DL4J 项 目 、Hadoop 作业 或 Spark 作业 的 
关键 部 分 。Apache Maven 允许 你 将 所 有 需要 的 文件 和 依赖 打包 到 单个 jar 模块 中 。 本 节 将 
介绍 在 构建 DL4J POM 文件 时 的 一 些 最 佳 实 践 。L4J Spark 应 用 的 主要 依赖 如 下 所 示 : 


。 DL4J 

。 ND4J 

。 DataVec 

。 DL4J-Spark 


下 面 介 绍 如 何在 Maven 的 pom.xml 文件 中 进行 这 些 操作 。 根 据 正 在 运行 的 Spark 版 


本 ， 需 要 以 不 同 的 方式 配置 pom.xml 文件 。 为 了 支持 与 Hadoop 的 基本 交互 ， 添 加 以 下 
Maven 依赖 : 



































<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-common</artifactId> 
<version>${hadoop.version}</version> 
<scope>${spark.scope}</scope> 
</dependency> 


hadoop.version 变量 要 在 pom.xml 文件 的 属性 区 域 中 根据 Hadoop 发 行 版 来 设置 。 要 查看 


更 多 关于 Maven 变量 的 值 ， 可 以 查看 Hadoop 供应 商 网 站 (CDH: http://bit.ly/2uvDPGu; 
HDP: http://bit.ly/2sOME0L) 中 关于 Maven 模块 版 本 的 说 明 “。 











注 6: 有 关 各 版 本 能 否 与 Hadoop 一 起 良好 工作 的 更 多 信息 ， 请 访问 Apache Hadoop 网 站 (https://hadoop. 
apache.org/docs/r2.7.2/hadoop-project-distyhadoop-common/Compatibility.html) 。 





-A 
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要 在 Spark 上 使 用 DL4J 


， 需 要 引入 deeplearning4j-spark 依赖 。 

<dependency> 
<groupId>org.deepLearning4j</groupId> 
<artifactId>dL4j-spark_sfscaLa.binary.version}j</artifactId> 
<version>${d1l4j.version}</version> 

</dependency> 


scala.binary.version 


在 前 面 的 代码 中 ， 注 
必须 是 _2.10 或 _2.11 

















Maven 变量 spark.version 将 取决 于 运行 


意 其 中 的 _${scala.binary.version} 是 Maven 属性 。 它 
， 并 且 应 该 与 正在 使 用 的 Spark 版 本 相 匹 配 。 





可 
To 


运行 的 Hadoop 发 行 版 或 Spark 发 行 版 ，scala.binary. 


Sas ey eg ak 表 9-2 是 对 这 些 变量 的 汇总 


表 9-2: Maven pom.xml 的 核心 条 目 


Maven 变 量 说 明 


说 明 。 





hadoop.version 


描述 所 使 用 的 Hadoop 发 行 版 或 版 本 (例如 CDH、HDP 等 ) 
scala.binary.version 取决 于 所 使 用 的 是 什么 版 本 的 Spark 


spark.version 取决 于 Hadoop 发 行 版 或 Spark 的 发 行 版 
























































例如 在 Macbook Pro 的 Maven 上 构建 项 目 ， 并 且 打 算 矿 
集群 的 节点 上 运行 作业 ， 则 需要 将 该 属性 设置 为 




















目标 RedHat。 


9.3.1 一 个 pom.xml 文 件 依赖 模板 


本 刷 介 绍 如 何 设置 pom.xml 文件 的 依赖 部 分 。 首 先是 为 依赖 开发 模板 ， 然 
Hadoop 发 行 版 中 如 何 配置 变量 。 示 例 9-1 提供 了 此 设置 的 代码 。 
示例 9-1 DL4J 项 目的 pom.xml 文件 
<dependencyManagement> 
<dependencies> 
<dependency> 
<groupId>org.nd4j</groupId> 


<artifactId>nd4j-native-platform</artifactId> 
<version>${nd4j.version}</version> 
</dependency> 








<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-api</artifactId> 


<version>${nd4j.version}</version> 
</dependency> 


平台 依赖 
如 果 你 在 一 个 平台 上 构建 ， 但 在 另 一 个 平台 上 部 署 ， 请 使 用 nd4j-native- 
platforn 依赖 作为 禁 代 ， 设 置 该 属性 会 引入 所 有 平 


平台 的 本 地 二 进 制 文件 。 
在 运行 RedHat 的 Spark 


后 介绍 在 具体 的 
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<dependency> 
<groupId>org.scala-lang</groupId> 
<artifactId>scala-library</artifactId> 
<version>${scala.version}</version> 
</dependency> 
</dependencies> 


</dependencyManagement> 


<dependencies> 


<!-- Spark and Scala Dependencies --> 

<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-mLLib_S{fscaLa.binary.version}j</artifactId> 
<version>${spark.version}</version> 
<scope>${spark.scope}</scope> 

</dependency> 


<dependency> 
<groupId>org.scala-lang</groupId> 
<artifactId>scala-library</artifactId> 
<version>${scala.version}</version> 
<scope>${spark.scope}</scope> 
</dependency> 


<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-core_sS{fscaLa.binary.version}</artifactId> 
<version>${spark.version}</version> 
<scope>${spark.scope}</scope> 

</dependency> 


<!-- Deeplearning4j Dependencies --> 
<dependency> 
<groupId>org.deepLearning4j</groupId> 
<artifactId>deeplearning4j-core</artifactId> 
<version>${d1l4j.version}</version> 
</dependency> 


<dependency> 
<groupId>org.deeplearning4j</groupId> 
<artifactId>d14j-spark_s${scala.binary.version}</artifactId> 
<version>${d1l4j.version}</version> 

</dependency> 


<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-kryo_${scala.binary.version}</artifactId> 
<version>${nd4j.version}</version> 

</dependency> 


<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-native-platform</artifactId> 





276 


第 9 章 


<version>${nd4j.version}</version> 
</dependency> 


<!-- DataVec Dependencies --> 
<dependency> 
<groupId>org.datavec</groupId> 
<artifactId>datavec-api</artifactId> 
<version>${datavec.version}</version> 
</dependency> 


<dependency> 
<groupId>org.datavec</groupId> 
<artifactId>datavec-spark_s${scala.binary.version}</artifactId> 
<version>${datavec.version}</version> 

</dependency> 


<dependency> 
<groupId>org.apache.avro</groupId> 
<artifactId>avro</artifactId> 
<version>1.7.1</version> 
<type>jar</type> 
<scope>compile</scope> 
</dependency> 


<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-common</artifactId> 
<version>${hadoop.version}</version> 
<scope>${spark.scope}</scope> 
</dependency> 


<!-- hadoop-mapreduce-client-app --> 


<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-app</artifactId> 
<version>${hadoop.version}</version> 
<scope>${spark.scope}</scope> 

</dependency> 


<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-common</artifactId> 
<version>${hadoop.version}</version> 
<scope>${spark.scope}</scope> 

</dependency> 


<dependency> 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
<version>4.11</version> 
</dependency> 


<dependency> 
<groupId>joda-time</groupId> 
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<artifactId>joda-time</artifactId> 
<version>2.7</version> 
</dependency> 


<dependency> 
<groupId>org.apache.mrunit</groupId> 
<artifactId>mrunit</artifactId> 
<version>1.1.0</version> 
<classifier>hadoop2</classifier> 
</dependency> 


<!-- JCommander for parsing args --> 
<dependency> 
<groupId>com.beust</groupId> 
<artifactId>jcommander</artifactId> 
<version>${jcommander .version}</version> 
</dependency> 


</dependencies> 





空 制 jar 的 大 小 


作业 jar 过 大 的 原因 之 一 是 引入 了 在 执行 平台 上 已 经 可 用 的 依赖 。 通 过 排除 这 些 jar， 
有 时 可 以 将 jar 大 小 减少 50% 到 80%， 从 而 使 编译 、 移 动 和 执行 作业 更 加 容易 。 可 以 
使 用 <scope> 标签 来 控制 jar 包含 哪些 依赖 ， 如 下 所 示 : 


<scope>provided</scope> 


用 此 方式 设置 作用 域 的 依赖 的 例子 如 下 所 示 : 


<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-common</artifactId> 
<version>${hadoop.version}</version> 
<scope>provided</scope> 

</dependency> 











序列 化 


Spark 仍然 默认 使 用 Java 序列 化 ， 这 通常 被 视 作 一 种 不 好 的 做 法 。 在 示例 9-1 
中 ， 通 过 引入 上 面 的 Kryo 依赖 来 减轻 这 一 影响 ， 如 下 所 示 : 
<dependency> 


<groupId>org.nd4j</groupId> 


<artifactId>nd4j-kryo_${scala.binary.version}</artifactId> 
<version>${nd4j.version}</version> 
</dependency> 


本 章 稍 后 讨论 ND4J 和 Spark 的 相关 常见 问题 时 ， 将 详细 讨论 这 个 依赖 。 











下 面 介绍 如 何在 特定 的 Hadoop 发 行 版 中 进行 设置 。 








9.3.2 为 CDH 5.x 设 置 POM 文 件 


本 市 给 出 了 在 CDH 5.x 上 构建 Spark 作业 的 关键 组 件 及 其 版 本 号 。 示 例 9-2 是 作业 属性 的 
一 个 例子 。 


示例 9-2 用 于 构建 CDH 5.x 作业 的 pom.xml 


下 

















<properties> 


<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 
<slf4j.version>1.7.5</slf4j.version> 
<jackson.version>2.5.1</jackson.version> 


<hadoop.version>2.6.0-cdh5.5.2</hadoop.version> 


<!-- DL4] Versioning --> 
<nd4j.version>0.7.2</nd4j.version> 
<dl4j.version>0.7.2</dl4j.version> 
<datavec.version>0.7.2</datavec.version> 


<scala.binary.version>2.10</scala.binary.version> 
<scala.version>2.10.4</scala.version> 
<spark.version>1.3.1</spark.version> 


</properties> 


对 于 任何 基于 DL4J 的 项 目 ,，nd4j.version、dl4j.version 和 datave.version 
的 版 本 号 都 需要 在 Maven 的 pom.xml 文件 中 相互 匹配 。 














看 介绍 Horton 的 Hadoop 发 行 版 中 的 POM 文件 。 


9.3.3 ”为 HDP 2.4 创 建 POM 文 件 


本 市 展示 如 何 为 HDP 2.4 上 的 Spark 作业 配置 pom.xml 文件 (假设 你 负责 创建 pom.xml 样 


让 





板 )， 这 些 是 作业 的 关键 依赖 和 组 件 版 本 的 设置 。 


示 
下 














例 9-3 展示 了 用 于 HDP Spark 作业 的 Maven 的 pom.xml 模板 的 属性 部 分 。 这 些 变 量 将 与 
看 的 依赖 项 相 匹配 。 


示例 9-3 ”用 于 构建 HDP 2.4 作业 的 pom.xml 


<properties> 


<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 
<slf4j.version>1.7.5</slf4j.version> 
<jackson.version>2.4.4</jackson.version> 

<jcommander .version>1.27</jcommander .version> 


<!-- HDP 2.4 Version modify for older/newer HDP releases --> 
<hdp.version>2.4.0.0-169</hdp.version> 
<hadoop.version>2.7.1</hadoop.version> 


<spark.version>1.6.0</spark.version> 





在 Spark 上 使 用 深度 学 习 和 DL4J | 279 


<spark.scala.version>2.10</spark.scala.version> 
<!-- DL4J Versioning --> 
<nd4j.version>0.7.2</nd4j.version> 
<dl4j.version>0.7.2</dl4j.version> 
<datavec.version>0.7.2</datavec.version> 


<scala.binary.version>2.10</scala.binary.version> 
<scala.version>2.10.4</scala.version> 


</properties> 


值得 注意 的 是 ， 构 建 系 统 使 用 示例 9-3 中 的 属性 来 构建 Maven 组 件 jar。 除 了 在 Maven 中 
使 用 之 外 ，DL4J 项 目 代 码 本 身 没 有 使 用 这 些 变量 。 


9.4 _ Spark 和 Hadoop 故 障 排除 


本 节 列 出 了 在 Hadoop 上 使 用 Spark 时 会 遇 到 的 一 些 常 见 问题 。 


有 时， 如 果 执 行 器 为 每 个 容器 请 求 的 RAM 比 可 用 的 多 ， 那 么 Spark 驱动 器 将 会 报告 以 下 
问题 : 


警告 TaskSchedulerImpl: 初始 作业 没有 接受 任何 资源 ， 检 查 你 的 集群 UI[， 确 保 
worker 已 注册 并 有 足够 的 内 存 。 


很 多 时 候 ， 可 以 通过 降低 作业 请 求 的 RAM 或 内 核 数量 来 缓解 这 种 问题 。 

















查看 Spark 调试 信息 的 入 口 
表 9-3 列 出 了 查看 和 调试 Spark 活动 的 一 些 关键 端口 。 
表 9-3: Spark 调 试 信息 关键 端口 














Web 服 务 端口 号 
YARN Job History Server UI 19888 
YARN Resource Manager UI 8088 
Spark Job History Web UI 18080 
= | 旦 
ND4J 的 常见 问题 














下 面 列 出 了 在 Spark 中 使 用 ND4J 会 遇 到 的 一 些 常见 问题 ， 以 及 解决 方案 。 


1. ND4J 与 Kryo 序 列 化 
Kryo 是 一 个 常用 于 Apache Spark 的 序列 化 库 。 它 的 目标 是 通过 减少 序列 化 对 象 所 花费 的 
时 间 来 提高 表现 。 








SerDe 


“SerDe” 一 词 是 数据 的 序列 化 和 反 序 列 化 系统 工程 的 简写 。Spark 序列 化 涉 
及 数据 和 函数 。Spark 只 关注 设置 序列 化 ， 且 默认 依赖 Java 序列 化 ， 这 种 做 
法 方便 但 效率 低 。 

Hadoop 引入 了 自己 的 SerDe 机制 (writable 接口 )， 并 使 用 输入 和 输出 格 
式 ， 从 文件 格式 解析 Writabte， 或 者 解析 到 文件 格式 中 。Spark 需要 这 些 输 
入 /输出 格式 来 操作 HDFS 中 的 数据 。 









































然而 ,Kryo 难以 处 理 ND4J 中 的 非 堆 数据 结构 "。 要 在 Apache Spark 上 配合 ND4J 使 用 Kryo 
序列 化 ， 需 要 对 Spark 进行 一 些 额外 的 配置 。 如 果 Kryo 没有 被 正确 配置 ， 那 么 由 于 不 正确 
的 序列 化 ， 有 可 能 在 某 些 INDArray 字段 上 出 现 NullPointerException。 


要 使 用 Kryo， 需 要 添加 适当 的 nd4j-kryo 依赖 ， 并 进行 Spark 配置 以 使 用 ND4J Kryo 注册 
器 ， 如 下 所 示 : 
SparkConf conf = new SparkConf(); 


conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); 
conf.set("spark.kryo.registrator", "org.nd4j.Nd4jRegistrator"); 











当 使 用 DL4J 的 SparkDL4jMuLttLayer 或 SparkComputation Graph 类 时 ， 如 果 
Kryo 配置 不 正确 ， 系 统 会 记录 一 个 警告 。 





2.jnind4j 与 java.library.path 
以 下 是 一 个 常见 错误 : 


Exception in thread "main" java.lang.UnsatisfiedLinkError: no jnind4j in 
java. library.path 


9.5 ”DL4J 在 Spark 上 的 并 行 执行 


作为 加 速 网 络 训 练 的 一 种 方式 ，DL4J 支持 在 Spark 集群 上 训练 神经 网 络 。 


类 似 于 DL4J 的 MultiLayerNetwork 和 ComputationGraph 类 ，DL4J 定义 了 用 于 在 Spark 上 
训练 神经 网 络 的 两 个 类 。 


口 SparkDl4jMultiLayer 
SparkDL4jMuLtiLayer 是 对 MultiLayerNetwork 的 封装 。 








口 SparkComputationGraph 

SparkComputationGraph 是 对 ComputationGraph 的 封装 。 
因为 这 两 个 类 是 标准 单机 类 的 封装 器 ， 所 以 网 络 配置 过 程 (例如 创建 MultiLayerConfiguration 
或 ComputationGraphConfiguration) 在 标准 训练 和 分 布 式 训练 中 相同 。 不 过 Spark 上 的 分 

















注 7: 这 不 是 ND4J 的 问题 ， 而 是 Spark 的 问题 ， 但 从 实用 的 角度 来 看 ， 这 个 问题 值得 注 
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布 式 训练 与 本 地 训练 在 两 个 方面 不 同 : 数据 如 何 加 载 以 及 训练 如 何 设置 (需要 一 些 额 外 的 

集群 特定 的 配置 ) 。 

在 Spark 集群 上 (使 用 Spark submit) 训练 网 络 的 典型 工作 流 如 下 所 示 。 

(1) | 练 类 。 通 党 涉及 以 下 代码 。 
指定 网 络 配置 (MultiLayerConfiguration 或 ComputationGraphConfiguration)， 就 像 
为 单机 训练 所 做 的 那样 。 
创建 一 个 TrainingMaster 实例 ,这 指定 了 如 何 实际 执行 分 布 式 训 练 〈 稍 后 将 详细 介绍 ) 。 
使 用 网 络 配置 和 TraintngMaster 对 象 创 建 SparkDL4jMuLtiLayer 或 SparkComputationGraph 
实例 。 
加 载 训练 数据 。 加 载 数据 有 许多 不 同 的 方法 ,有 不 同 的 取舍 。 更 多 细节 见 后 面 的 章节 。 
在 SparkDL4jMuLtiLayer 或 SparkComputationGraph 实例 中 调用 适合 的 fit 方法 。 
保存 或 使 用 经 过 训练 的 网 络 (经 过 训练 的 MultiLayerNetwork 或 ComputationGraph 
实例 )。 

(2) 打 包 jar 文件 ， 用 于 Spark submit。 
如 果 使 用 的 是 Maven， 一 种 打包 的 方法 是 运行 mvn package -DskipTests。 


(3) 选择 适合 集群 的 启动 配置 ， 然 后 调用 Spark submit。 


单机 上 的 Spark 训练 

对 于 单机 训练 ，Spark local“ 可 以 ”与 DL4J 一 起 使 用 ,但 不 建议 这 样 做 (由 

于 Spark 的 同步 和 序列 化 开销 )。 相 反 ， 请 考虑 以 下 做 法 。 
。 对 于 单 CPU/GPU 系统 ， 使 用 标准 的 MuLttLayerNetwork 或 ComputationGraph 
进行 训练 。 

。 对 于 多 CPU/GPU 系统 ， 使 用 ParallelWrapper 。 这 在 功能 上 等 同 于 在 本 地 
模式 下 运行 Spark， 不 过 它 的 开销 更 少 (因此 训练 表现 得 更 好 )。 


DL4J 的 当前 版 本 使 用 参数 平均 的 过 程 来 训练 网 络 ， 未 来 版 本 可 能 还 包括 其 他 分 布 式 网 络 
训练 方法 。 
使 用 参数 平均 来 训练 网 络 的 过 程 在 概念 上 相当 简单 。 
(1) 以 初始 的 网 络 配 置 和 参数 启动 master (Spark 驱动 器 )。 
(2) 根据 TrainingMaster 的 配置 ， 将 数据 分 割 为 若干 子 集 。 
(3) a 对 于 每 个 训练 数据 的 分 片 : 
将 配置 参数 (以 及 可 能 存在 的 用 于 动量 /RMSProp/AdaGrad 的 网 络 更 新 器 状态 ) 从 
master 分 发 给 每 个 worker; 
每 个 worker 训练 分 配 的 数据 ， 
平均 参数 (以 及 可 能 存在 的 更 新 状态 )， 并 将 平均 结果 返回 给 master。 
(4) 训练 完成 后 ，master 会 有 一 个 训练 网 络 的 副本 。 


下 面 介绍 这 些 概念 在 代码 中 是 如 何 实现 的 。 








































































































最 小 的 Spark 训 练 示例 
下 面 的 代码 展示 了 本 章 稍 后 将 介绍 的 、 构 建 完整 Spark 示例 的 基本 概念 。 

















JavaSparkContent SC = ...; 
JavaRDD<DataSet> trainingData = ...; 
MultiLayerConfiguration networkConfig = ...; 





// 创 建 TrainingMaster 实 例 
int examplesPerDataSetObject = 1; 
TrainingMaster trainingMaster = 
new ParameterAveragingTrainingMaster 
.Builder(examplesPerDataSetObject) 
.(other configuration options) 
.build(); 





// 创 建 SparkDL4jMuLtiLayer 实 例 
SparkDl4jMultiLayer sparkNetwork = 
new SparkD1l4jMultiLayer(sc, networkConfig, trainingMaster); 


// 使 用 训练 数据 训练 网 络 : 


sparkNetwork.fit(trainingData); 




















DL4J 中 的 TrainingMaster 是 一 个 抽象 (接口)， 它 允许 使 用 SparkD14jMultiLayer 和 
SparkComputationGraph 的 多 个 不 同 的 训练 实现 。 目 前 DL4J 有 一 个 实现 : ParameterAveraging- 
TrainingMaster， 它 实现 了 前 面 代码 中 展示 的 参数 平均 处 理 。 下 面 使 用 builder 模式 创建 一 
个 对 象 。 
TrainingMaster tm = new ParameterAveragingTrainingMaster 
.Builder(int dataSetObjectSize) 


. (your configuration here) 
.build(); 


ParameterAveragingTrainingMaster 定义 了 一 些 控 制 训练 执行 的 配置 选项 ， 下 面 详细 介绍 
这 些 选 项 。 
口 dataSetObjectSize 
dataSet0bjectSize ( 必 选 项 ) 是 在 构造 函数 中 指定 的 。 这 个 值 指定 了 每 个 Dataset 对 象 
中 的 样本 数量 。 这 里 有 两 种 情况 要 注意 。 
。 如 果 使 用 预 处 理 过 的 Dataset 进行 训练 ， 值 将 是 那些 预 处 理 过 的 Dataset 的 大 小 。 
。 如 果 直 接 从 String 类 型 数据 (例如 通过 一 系列 步骤 ,从 CSV 数据 转化 为 RDD<DataSet>) 
进行 训练 ， 值 通常 为 1。 
口 batchSizePerNorker 
batchsizePerWorker 控制 每 个 worker 的 小 批量 大 小 ， 这 与 在 单机 上 训练 时 使 用 的 小 批 
量 类 似 。 换 名 话说 ， 它 是 每 个 worker 在 每 个 参数 更 新 时 所 使 用 的 样本 的 数量 。 
口 averageFrequency 
averageFrequency 控制 参数 根据 小 批量 的 大 小 batchsizePerWorker ， 被 平均 和 重新 分 配 
的 频率 。 这 里 有 三 件 事 要 记 住 。 
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低 平均 周期 (例如 averagingFrequency = 1) 可 能 是 低 效 的 (相对 于 计算 而 言 ， 有 过 
多 的 网 络 通信 和 初始 化 开销 )。 
高 平均 周期 (例如 averagingFrequency = 200) 可 能 导致 表现 不 佳 每 个 worker 实 
例 中 的 参数 可 能 显著 不 同 )。 

。 将 平均 周期 设置 为 5 到 10 个 小 批量 范围 内 通常 是 一 个 安全 的 默认 选择 。 











DD workerprefetchNumBatches 


Spark worker 能 够 异步 预 取 多 个 小 批量 (DataSet 对 象 )， 以 避免 等 待 加 载 数 据 。 将 该 值 
设置 为 0 禁用 预 取 ， 而 设置 为 2 通常 是 明智 的 默认 选择 。 在 大 部 分 情况 下 ， 更 大 的 值 不 
太 可 能 有 帮助 (但 会 使 用 更 多 的 内 存 )。 

saveUpdater 

在 DL4J 中 ， 将 动量 、RMSProp 和 AdaGrad 等 训练 方法 称 为 “更 新 器 "。 这 些 更 新 器 
大 多 有 内 部 历史 或 状态 。 如 果 saveUpdater 被 设置 为 tue， 那 么 更 新 器 状态 〈 在 每 个 
worker 中 ) 将 被 平均 ， 连 同 参数 一 起 返回 给 master， 当 前 更 新 器 状态 也 将 从 master 分 发 
到 worker。 这 增加 了 额外 的 时 间 和 网 络 流量 ， 但 可 以 提高 训练 效果 。 如 果 saveUpdater 
被 设置 为 false， 那 么 更 新 器 状态 (在 每 个 worker 中 ) 会 被 丢弃 ， 并 且 每 个 worker 中 的 
更 新 器 会 被 重 置 / 重新 初始 化 。 

repartition 

repartition 指定 何 时 重新 分 区 数据 。ParameterAveragingTrainingMaster 执行 mapPartitions 
操作 ， 因 此 ， 分 区 的 数量 (以 及 每 个 分 区 中 的 值 ) 对 于 正确 使 用 集群 非常 重要 。 但 重新 
分 区 不 是 一 个 无 成 本 的 操作 ， 因 为 某 些 数据 必须 通过 网 络 复制 。 以 下 选项 可 用 。 


。 Always: (默认 选项 )， 即 将 数据 重新 分 区 以 确保 的 分 区 数 正确 。 
Never: 从 不 将 数据 重新 分 区 ， 不 管 分 区 有 多 么 不 平衡 。 
NumpartitionsWorkersDiffers: 只 有 在 分 区 数量 和 worker 数量 (内核 总 数 ) 不 同 的 
情况 下 才 重 新 分 区 。 但 是 请 注意 ， 即 使 分 区 的 数量 等 于 内 核 总 数 ， 也 不 能 保证 每 个 
分 区 中 的 DataSet 对 象 数量 都 正确 : 一 些 分 区 可 能 比 其 他 分 区 更 大 或 更 小 。 


repartitionStrategy 


repartitionStrategy 是 重新 分 区 的 策略 。 以 下 是 可 选项 。 


SparkDefault: Spark 所 使 用 的 标准 的 重新 分 区 策略 。 基 本 上 ， 初 始 RDD 中 每 个 对 
象 分 别 被 随机 映射 到 NN 个 RDD 中 的 一 个 。 因 此 ,分 区 可 能 不 是 最 优 平衡 的 ， 对 于 
较 小 的 RDD 问题 可 能 比较 严重 ， 比 如 那些 使 用 预 处 理 的 Dataset 对 象 的 RDD 以 及 
频繁 的 平均 周期 〈 仅 根据 随机 采样 变化 ) 。 

Balanced: DL4J 的 自 定义 重新 分 区 策略 。 与 SparkDefault 选项 相 比 ， 它 试图 确保 每 
个 分 区 〈 在 对 象 数量 方面 ) 更 加 平衡 。 然 而 在 实践 中 ， 这 需要 执行 额外 的 计数 操作 。 
在 某 些 情况 下 (最 显著 的 是 在 小 型 网 络 中 , 或 在 每 个 小 批量 的 计算 量 较 小 的 网 络 中 )， 
它 带 来 的 好 处 可 能 不 会 超过 执行 更 好 的 重新 分 区 带 来 的 额外 开销 。 


































































































9.6 ” ”Spark 平台 上 的 DL4J API 最 佳 实践 


以 下 是 你 应 该 做 的 、 能 够 充分 利用 Spark+Hadoop 集群 的 事情 。 
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构建 一 个 瘦身 过 的 jar。 
。 使 用 调 优 良好 的 集群 。 
。 优化 ETL/ 向 量化 流水 线 。 
确保 JVM 被 调 优 过 。 
理想 情况 下 ， 建 立 尽 可 能 小 的 作业 。 扩 展 处 理 能 力 的 核心 理念 是 “将 计算 移 至 数据 "， 在 
集群 中 移动 尽 可 能 小 的 jar。 


应 该 在 具有 好 的 分 布 式 文件 系统 且 调 优良 好 的 集群 中 使 用 Spark。 
































什么 是 “好 的 分 布 式 文件 系统 ” 


在 分 布 式 文件 系统 的 领域 中 有 几 种 选择 ， 你 应 该 考虑 寻找 一 个 知名 的 、 支 持 可 能 用 到 
的 一 组 分 布 式 组 件 的 分 布 式 文件 系统 。 


数据 科学 家 的 工作 内 容 不 应 该 是 搭建 或 者 维护 分 布 式 系统 的 基础 设施 。 由 于 基础 设施 
的 复杂 性 而 混乱 的 机 器 学 习 项 目 是 项 目 失败 的 “死神 "”。 从 这 个 角度 ， 建 议 你 选择 具有 
以 下 特性 的 分 布 式 文件 系统 : 

已 知 可 靠 ; 

支持 Kerberos 集成 ; 
。 精心 测试 过 ; 

可 扩展 ; 

可 与 数据 科学 堆栈 中 的 大 部 分 其 他 组 件 协同 工作 。 
很 多 时 候 ， 特 别 是 在 Spark 和 Hadoop 环境 中 ， 这 个 选择 最 终 是 HDFS 。 

















严肃 的 企业 用 户 希 望 在 一 个 维护 良好 的 Hadoop 集群 中 运行 Spark， 最 合适 他 们 的 是 现代 
Hadoop 发 行 版 ， 我 们 推荐 CDH 5 或 HDP 2.4。 


ETL 和 向 量化 需要 从 主要 训练 循环 中 抽取 出 来 。 集 群 上 的 大 型 工作 成 本 很 高 ， 所 以 它们 需 
要 尽 可 能 的 高 效 。 理 想 情况 下 ， 应 该 保存 和 加 载 序 列 化 Dataset 对 象 ， 而 不 是 一 次 又 一 次 
地 转换 RDD。 


最 后 ， 调 优良 好 的 JVM 也 是 大 有 帮助 的 ， 让 工作 更 轻松 。 确 保 JVM 是 调 优 后 的 状态 ， 以 
免 去 长 时 间 的 垃圾 收集 暂停 的 困扰 。 


9.7 多 层 感知 器 的 Spark 示 例 
在 这 个 例子 中 ， 我 们 将 重新 使 用 MNIST 数据 集 来 对 数字 进行 分 类 ， 但 是 这 次 我 们 将 使 用 
多 层 感 知 器 ， 并 且 将 在 Spark 上 训练 网 络 。 


本 章 的 例子 与 第 5 章 的 例子 相 比 ， 主 要 的 改变 是 处 理 Spark 上 的 并 行 训 练 的 方式 。 本 章 的 
其 他 大 部 分 例子 都 是 类 似 的 。 


另 一 个 需要 考虑 的 方面 是 正在 使 用 的 HDFS 中 的 数据 ， 并 且 ETL 和 向 量化 流水 线 (通常 ) 
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需要 以 一 种 能 够 水 平 扩展 的 方式 构建 。 可 以 使 用 Spark 函数 来 完成 这 项 工作 ( 稍 后 介绍 )， 
或 者 可 以 使 用 ETL 库 ， 如 DataVec。 本 例 使 用 一 些 自 定义 的 内 置 代码 来 专门 处 理 MNIST 
格式 ， 因 此 不 那么 让 人 担心 。 需 要 注意 的 是 ， 涉 及 CSV 和 基于 文本 数据 的 其 他 项 目 ， 可 
能 需要 大 量 的 预 处 理 。 


小 心 单一 处 理 的 ETL 代码 

当 处 理 更 大 的 数据 集 时 ， 需 要 注意 构建 ETL 流水 线 的 方式 。Spark 允许 我 们 
将 单一 处 理 的 Java 代码 与 Spark 图 数 混 合 ， 如 果 不 够 小 心 ， 我 们 将 陷入 赛 
境 一 一 代码 无 法 根据 输入 数据 集 大 小 水 平 扩展 。DataVec 在 GitHub 代码 库 中 
提供 了 ETL 设计 模式 的 示例 (http://bit.ly/2sV9r6m)， 展 示 了 如 何在 Spark 中 
为 DL4J 工作 流 构建 高 效 的 并 行 ETL 流水 线 。 




















示例 9-4 列 出 了 Saturn 示例 的 代码 (已 调整 为 可 在 Spark 上 执行 )。 
示例 9-4 用 于 Spark 多 层 感 知 器 网 络 的 Saturn 数据 集 


public class MnistMLPExample { 
private static final Logger log = LoggerFactory.getLogger(MnistMLPExample.class); 





@Parameter(names = "-useSparkLocal", description = 
"Use spark local (helper for testing/running without spark submit)", 
arity = 1) 


private boolean useSparkLocal = true; 


@Parameter(names = "-batchSizePerWorker", description = 
"Number of examples to fit each worker with") 
private int batchSizeperWorker = 16; 


@Parameter(names = "-numEpochs", description = "Number of epochs for training") 
private int numEpochs = 15; 


public static void main(String[] args) throws Exception { 
new MnistMLPExample().entryPoint(args); 





} 

protected void entryPoint(String[] args) throws Exception { 
// 处 理 命令 行 参数 
JCommander jcmdr = new JCommander(this); 
try { 


jcmdr .parse(args); 

} catch (ParameterException e) { 
// 用 户 提供 了 无 效 的 输入 -> 打印 使 用 方法 信息 
jcmdr .usage(); 
try { Thread.sleep(500); } catch (Exception e2) { } 
throw e; 





























} 


SparkConf sparkConf = new SparkConf(); 
if (useSparkLocal) { 
sparkConf .setMaster("LocaL[*]"); 


eo 





sparkConf.setAppName("DL4] Spark MLP Example"); 
JavaSparkContext sc = new JavaSparkContext(sparkConf); 


// 将 数据 加 载 到 内 存 中 ， 然 后 并 行 化 
// 通 常 这 不 是 一 个 好 方法 ， 但 在 这 个 例子 
DataSetIterator iterTrain = 
new MnistDataSetIterator(batchSizeperWorker, true, 12345); 
DataSetIterator iterTest = 
new MnistDataSetIterator(batchSizeperWorker, true, 12345); 
List<DataSet> trainDataList = new ArrayList<>(); 
List<DataSet> testDataList = new ArrayList<>(); 
while (iterTrain.hasNext()) { 
trainDatalList.add(iterTrain.next()); 








UD 








用 起 来 很 简单 











} 
while (iterTest.hasNext()) { 
testDataList.add(iterTest.next()); 


} 


JavaRDD<DataSet> trainData = sc.parallelize(trainDatalList); 
JavaRDD<DataSet> testData = sc.parallelizel(testDatalist); 


[fe 
// 创 建 网 络 配置 ， 进 行 网 络 训练 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(12345) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 
.activation(Activation.LEAKYRELU) 
.weightInit(WeightInit.XAVIER) 
.learningRate(0.02) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.reguLarization(true).L2(1e-4) 
.list() 
.layer(0, new DenseLayer .Builder().nIn(28 * 28).nOut(500).build()) 
.layer(1, new DenseLayer .Builder().nIn(500).nOut(100).build()) 
.layer(2, new OutputLayer .Builder(LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 
.activation(Activation.SOFTMAX).nIn(100).nOut(10).build()) 
.pretrain(false).backprop(true) 
.build(); 











/1Spark 训 | 练 的 配置 ,参见 http://deeplearning4j.org/spark， 其 中 解释 这 些 配 置 选项 
TrainingMaster tm = new ParameterAveragingTrainingMaster 
.Builder(batchsSizePerWorker) // 每 个 DataSet 对 象 : 包含 (默认 ) 32 个 样本 
.averagingFrequency(5) 
.WorkerPrefetchNumBatches(2) // 异 步 预 读 取 : 每 个 worker 两 个 样本 
.batchSizeperWorker(batchSizepPerWorker) 
.build(); 











// 创 建 Spark 网 络 
SparkD14jMultiLayer sparkNet = new SparkD1l4jMultiLayer(sc, conf, tm); 


// 执 行 训练 : 


for (int i = 0; i < numEpochs; i++) { 
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sparkNet.fit(trainData); 
log.info("Completed Epoch {}", i); 
} 


// 执 行 评估 (分布 式 ) 

Evaluation evaluation = sparkNet.evaluate(testData); 
log.info("**x*x** Evaluation ****x"); 
log.info(evaluation.stats()); 








// 删 除 临 时 训练 文件 ， 现 在 已 经 完成 了 训练 
tm.deleteTempFiles(sc); 


log.info("***** Example Complete ***x*"); 


} 
下 面 剖 析 代 码 的 关键 部 分 ， 重 点 讲解 示例 的 Spark 版 本 中 的 核心 差异 。 
要 构建 Spark 作业 项 目 ， 需 要 切换 到 项 目的 主 目 录 ， 并 运行 下 面 的 Maven 命令 : 


mvn package 


这 将 在 ./target 子 目 录 中 创建 所 需 的 Spark 作业 jar。 将 这 个 jar 复制 到 Spark 集群 的 网 关 主 
机 去 运行 作业 ， 参 考 本 章 之 前 介绍 的 在 命令 行 运行 Spark 的 说 明 。 


9.7.1 建立 Spark MLP 网 络 架 构 


示例 9-4 的 网 络 架构 类 似 于 第 5 章 中 的 某 些 网 络 。 在 下 面 的 示例 中 ， 重 点 看 看 网 络 架构 配 
置 的 代码 。 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(12345) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 

.iterations(1) 
.activation(Activation.LEAKYRELU) 
.weightInit(WeightInit.XAVIER) 
.learningRate(0.02) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.regularization(true).l2(1e-4) 
.list() 
.layer(0, new DenseLayer .Builder().nIn(28 * 28).nOut(500).build()) 
.layer(1, new DenseLayer .Builder().nIn(500).nOut(100).build()) 
.layer(2, new OutputLayer .Builder(LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 
.activation(Activation.SOFTMAX).nIn(100).nOut(10).build()) 
.pretrain(false).backprop(true) 
.build(); 


这 个 示例 仍然 使 用 SGD 优化 网 络 的 参数 。 第 5 章 的 多 层 感 知 器 示例 只 有 一 个 隐藏 层 ， 而 
这 个 示例 多 了 一 个 隐藏 层 。 示 例 还 切换 到 ReLU 激活 函数 的 leaky 修正 线性 单元 (ReLU) 
变 体 ， 这 个 变 体 在 第 5 章 的 多 层 感 知 器 示例 中 使 用 过 。 除 此 之 外 ， 网 络 和 输出 层 的 其 余部 
分 与 另 一 个 示例 大 体 相 同 。 这 个 示例 很 好 地 演示 了 如 何 通 过 简单 地 调整 网 络 ， 来 对 完全 不 
同 的 数据 建 模 。 诀 窍 是 通过 超 参数 搜索 找 出 这 些 简单 的 调整 。 









































288 | 第 9 章 


本 地 和 Spark 上 的 相同 网 络 架 构 


DL4J 的 一 个 很 好 的 特性 是 能 够 在 本 地 机 器 上 使 用 数据 子 集 开发 网 络 ， 然 后 
将 相同 的 结构 移植 到 Spark 上 ， 并 对 整个 数据 集 建 模 。 


9.7.2 分 布 式 训练 与 模型 评估 
下 面 是 代码 中 要 重点 介绍 的 两 个 关键 区 别 (与 第 5 章 的 单一 流程 示例 相 比 )。 


。 在 这 个 示例 中 引入 了 ParameterAveragingTrainingMaster 方法 。 
。 不 同 的 训练 封装 类 : sparkDl4jMultiLayer。 


与 第 5 章 的 示例 相 比 ， 这 个 示例 中 只 有 这 两 个 区 别 是 重大 的 修改 。 这 些 修 改 涉及 的 代码 行 
数 不 多 ， 因 此 可 以 看 到 从 本 地 机 器 学 习 工 作 流 迁 移 到 Spark 上 的 机 器 学 习 工 作 流 并 不 是 多 
么 困难 。 下 面 的 示例 是 示例 9-4 中 引入 的 TrainingMaster 的 代码 片段 ， 如 本 章 之 面 所 解释 
的 。 在 下 一 个 代码 片段 中 ， 使 用 它 来 控制 在 Spark 中 执行 的 参数 平均 。 
/1Spark 训 练 的 配置 :参见 http://deeplearning4j.org/spark， 其 中 对 这 些 配置 选项 进行 了 解释 
TrainingMaster tm = new ParameterAveragingTrainingMaster 
.Builder(batchsSizePerWorker) // 每 个 DataSet 对 象 : 包含 (默认 ) 32 个 样本 
.averagingFrequency(5) 
.WorkerPrefetchNumBatches(2) // 异 步 预 读 取 : 每 个 worker 两 个 样本 


.batchSizePerNorker(batchSizePerNorker) 
.build(); 


Spark 上 的 分 布 式 训练 代码 的 另 一 个 主要 修改 涉及 一 个 名 为 SparkD14jMultiLayer 的 
MultiLayerNetwork 封装 器 的 使 用 ， 如 下 所 示 : 


// 创 建 Spark 网 络 
SparkD1l4jMultiLayer sparkNet = new SparkDl4jMultiLayer(sc, conf, tm); 


















































// 执 行 训练 : 

for (int i = 0; i < numEpochs; i++) { 
sparkNet.fit(trainData); 
log.info("Completed Epoch {}", i); 

} 


这 个 封装 器 与 TrainingMaster 协同 工作 ， 以 执行 模型 所 需 的 分 布 式 训练 ， 使 我 们 得 以 从 大 
量 细节 中 抽身 出 来 。SparkD14jMultiLayer 类 使 我 们 能 够 以 与 在 本 地 机 器 上 执行 模型 训练 几 
平 相 同 的 方式 控制 执行 器 。 

从 前 面 的 片段 可 以 看 出 ，SparkD14jMultiLayer 类 有 三 个 参数 : 

(1) Spark context; 


(2) DL4J 网 络 配 置 ， 
(3) ParameterAveragingTrainingMaster 对 象 。 


在 这 个 示例 的 本 地 机 器 版 本 中 ， 可 以 看 到 用 于 对 数据 建 模 的 MultiLayerNetwork 类 。 
SparkD14jMultiLayer 封装 器 类 的 长 处 是 它 看 起 来 几乎 与 MultiLayerNetwork 类 一 模 一 样 ， 
可 以 在 for 循环 中 使 用 它 ， 以 相同 的 方式 控制 轮 数 。 
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最 后 ， 网 络 的 Fl 分 数 被 计算 并 打印 到 日 志 系统 中 。 
// 执 行 评估 (分布 式 ) 


Evaluation evaluation = sparkNet.evaluate(testData); 
log.info("**xx** EVaLUatiLon ****x"); 
log.info(evaluation. stats()); 


这 个 示例 非常 好 地 展示 了 以 干净 、 简 单 的 方式 使 用 Spark 和 DL4J 训练 模型 的 基本 做 法 。 
除了 增加 几 行 额外 的 Spark 代码 和 TrainingMaster， 以 使 深度 学 习 模 型 能 够 在 生产 环境 的 、 
安全 的 Spark 集群 上 训练 之 外 ， 基 本 上 不 需要 做 别 的 事情 。 


9.7.3 ”构建 和 执行 DL4J Spark 作 业 

首先 将 当前 目录 切换 为 示例 的 根 目录 ， 接 下 来 使 用 以 下 Maven 命令 构建 作业 jar。 
maven package 

这 将 在 ./target/ 子 目 录 下 生成 一 个 完整 的 作业 jar。 

将 作业 jar 复制 到 将 要 执行 Spark 的 机 器 中 之 后 ， 输 入 以 下 命令 : 


spark-submit --class org.deeplearning4j.examples.feedforard.MnistMLPExample 
--Num-executors 3 --properties-file ./spark_extra.props 
./dl4j-examples-1.0-SNAPSHOT. jar 


这 将 输出 大 量 训练 信息 到 控制 台 ， 因 为 模型 报告 了 训练 的 进展 情况 。 注 意 ， 这 里 的 命令 行 
参数 是 那些 由 --properties-file 参数 提供 的 Spark 运行 时 参数 ， 这 使 得 我 们 可 以 用 常见 
的 命令 行 参数 并 将 它们 保存 到 文件 中 ， 这 样 就 不 必 每 次 都 输入 它们 了 。 另 一 个 需要 注意 的 
参数 是 - -num-executors， 用 于 设置 Spark 中 worker 的 数量 ， 这 里 将 其 设置 为 3。 


9.8 ”使 用 Spark 和 LSTM 生 成 莎士比亚 作品 


重 温 一 下 第 5 章 的 LSTM 示例 ， 看 看 如 何 修改 代码 ， 并 在 Spark 上 构建 相同 的 模型 
(http://bit.ly/2sxFxFV)。 下 面 的 内 容 不 会 详细 介绍 数据 加 载 的 代码 ， 而 会 重点 介绍 Spark 下 
网 络 架 构 和 训练 过 程 的 略微 不 同 之 处 。 示 例 9-5 是 核心 的 训练 方法 。 


示例 9-5 使 用 Java 开发 的 LSTM 莎士比亚 示例 的 核心 训练 方法 
protected void entryPoint(String[] args) throws Exception { 
// 处 理 命令 行 参数 
JCommander jcmdr = new JCommander(this); 
try { 
jcmdr .parse(args); 
} catch (ParameterException e) { 
// 用 户 提 供 了 无 效 的 输入 -> 打印 使 用 方法 信息 
jcmdr .usage(); 
try { 
Thread. sleep(500); 
} catch (Exception e2) { 
} 


throw e; 
















































































ow 





Random rng = new Random(12345); 











int lstmLayerSize = 200; // 每 个 GravesLSTM 层 的 单元 数量 

int tbpttLength = 50; // 截 断 基 于 时 间 的 反 向 传播 的 长 度 ， 即 每 50 个 
// 字 符 做 一 次 参数 更 新 

int nSamplesToGenerate = 4; // 每 次 训练 轮 后 生成 样本 的 数量 

int nCharactersToSample = 300; // 要 生成 的 每 个 样本 的 长 度 





String generationInitialization = null; // 可 选 的 字符 初始 化 ， 如 果 为 nuLL 则 使 用 


// 随 机 字符 


// 以 上 是 用 于 "填充 "LSTNM 的 字符 序列 ， 以 继续 /结束 。 默 认 情 况 下 ， 初 始 化 字符 都 必须 在 





//CharacterIterator .getMinimaLCharacterSet() 中 


// 设 置 网 络 配置 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 
.learningRate(0.1) 
.rmsDecay(0.95) 
.Seed(12345) 
.regularization(true) 
.12(0.001) 
.weightInit(WeightInit.XAVIER) 
.Updater (Updater .RMSPROP) 
.list() 
.layer(0, new GravesLSTM.BuiLder().nIn(CHAR_TO_INT.size()) 
.NOut(lstmLayerSize).activation(Activation.TANH).build()) 





.layer(1, new GravesLSTM.Builder().nIin(lstmLayerSize).nOut(lstmLayerSize) 


.activation(Activation.TANH) .build()) 

.layer(2, new RnnOutputLayer .Builder(LossFunction.MCXENT) 
.activation(Activation.SOFTMAX) // 用 于 分 类 的 MCXENT+softmax 
.NIn(lstmLayerSize).nOut(nOut).build()) 

















.backpropType(BackpropType.TruncatedBPTT).tBPTTForwardLength(tbpttLength) 


.tBPTTBackwardLength(tbpttLength) 
.pretrain(false).backprop(true) 
.build(); 


// 设 置 Sspark 特 定 的 配置 
/* 我 们 应 该 多 久 对 参数 取 平均 (根据 小 批量 的 数量 ) ? 频率 太 高 会 导致 平均 的 计算 
变 慢 (同步 + 序列 化 成 本 ) ， 而 频率 太 低 又 会 导致 学 习 困 难 ( 即 网 络 可 能 不 会 收 伍 ) 








*/ 


int averagingFrequency = 3; 


// 设 置 Spark 配 置 和 上 下 文 
SparkConf sparkConf = new SparkConf(); 
if (useSparkLocal) { 
sparkConf.setMaster("local[*]"); 
} 
sparkConf.setAppName("LSTM Character Example"); 
JavaSparkContext sc = new JavaSparkContext(sparkConf); 


JavaRDD<DataSet> trainingData = getTrainingData(sc); 


// 设 置 TrainingMaster。TrainingMaster 控 制 学 习 实 际 上 是 如 何在 Spark 上 执行 的 
// 在 这 里 使 用 标准 参数 平均 
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// 关 于 这 些 配置 选项 的 详细 信息 ， 请 参见 : 

//https://deeplearning4j.org/spark#configuring 

int examplesPerDataSetObject = 1; 

ParameterAveragingTrainingMaster tm = new ParameterAveragingTrainingMaster 
.Builder(examplesPerDataSetObject) 
.workerPrefetchNumBatches(2) // 异 步 预 取 两 个 批量 
.averagingFrequency(averagingFrequency) 
.batchSizeperWorker(batchSizeperWorker) 
.build(); 

SparkD14jMultiLayer sparkNetwork = new SparkD1l4jMultiLayer(sc, conf, tm); 

sparkNetwork.setListeners(Collections.<IterationListener>singletonList(new 
ScoreIterationListener(1))); 


// 进 行 训练 ， 然 后 生成 并 打印 来 自 网 络 的 样本 
for (int i = 0; i < numEpochs; i++) { 
// 进 行 一 轮训 练 。 在 每 轮训 练 的 最 后 ， 都 会 返回 一 个 经 过 训练 的 网 络 副本 。 
MultiLayerNetwork net = sparkNetwork.fit(trainingData); 
// 从 网 络 中 采样 一 些 字符 (本 地 完成 ) 
log.info("Sampling characters from network given initialization \"" + 
(generationInitialization == null ? "" : generationInitialization) + 
"\""); 
String[] samples = sampleCharactersFromNetwork(generationInitialization, 
net, rng, INT_TO_CHAR, 
nCharactersToSample, nSamplesToGenerate); 
for (int j = 0; j < samples.length; j++) { 
log.info("----- Sample " + j+" ----- ss 
log.info(samples[j]); 



































} 


// 删 除 临 时 训练 文件 ， 现 在 已 经 完成 了 训练 
tm.deleteTempFiles(sc); 





log.info("\n\nExample complete"); 
} 


正如 前 面 所 做 的 ， 你 需要 自己 研究 其 余 的 代码 ， 为 了 简洁 起 见 ， 这 里 不 会 列 出 数据 加 载 的 
代码 。 
下 面 是 代码 中 需要 强调 的 两 个 关键 差异 。 

。 在 这 个 示例 中 引入 了 ParameterAveragingTrainingMaster。 

。 不 同 的 训练 封装 器 类 : SparkD14jMultiLayer。 

与 第 5 章 的 示例 相 比 ， 这 个 例子 中 只 有 这 两 个 区 别 是 重大 的 修改 ， 并 且 在 前 面 的 多 层 感知 
器 Spark 示例 中 有 同样 的 修改 。 这 些 修改 涉及 的 代码 行 数 不 多 ， 因 此 可 以 看 到 从 本 地 机 器 
学 习 工 作 流 迁 移 到 Spark 上 的 机 器 学 习 工 作 流 并 不 是 多 么 困难 。 为 了 加 深 理 解 ， 来 具体 看 
看 在 这 个 例子 中 ， 是 如 何 定义 LSTM 网 络 的 。 


9.8.1 建立 LSTM 网 络 架 构 
下 面 强 调 的 (来 自前 面 ) 代码 片段 的 有 趣 之 处 在 于 ， 它 与 第 5 章 中 单一 流程 的 代码 示例 相同 。 


































































































// 配 置 网 络 : 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 

.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.iterations(1) 

.learningRate(0.1) 

.rmsDecay(0.95) 

.Seed(12345) 

.regularization(true) 

.12(0.001) 

.weightInit(WeightInit.XAVIER) 

.updater (Updater .RMSPROP) 

.list() 

.layer(0, new GravesLSTM.Builder().nIn(CHAR_TO_INT.size()) 
.NOut(lstmLayerSize).activation(Activation.TANH).build()) 

.layer(1, new GravesLSTM.Builder().nIn(lstmLayerSize).nOut(lstmLayerSize) 
.activation(Activation.TANH) .build()) 

.layer(2, new RnnOutputLayer .Builder(LossFunction.MCXENT) 
.activation(Activation.SOFTMAX) // 用 于 分 类 的 MCXENT+softmax 
.NIn(lstmLayerSize).nOut(nOut).build()) 

.backpropType(BackpropType.TruncatedBPTT).tBPTTForwardLength(tbpttLength) 
.tBPTTBackwardLength(tbpttLength) 

.pretrain(false).backprop(true) 

.build(); 


这 一 点 之 所 以 很 重要 ， 是 因为 从 操作 的 角度 看 ， 这 是 一 个 巨大 的 优势 。 可 以 使 用 在 本 地 开 
发 的 网 络 配置 ， 并 使 用 Spark 在 Hadoop 或 Mesos 集群 上 轻松 地 运行 它们 。 


同样 ， 这 个 例子 中 有 两 个 隐藏 层 〈GravesLSTM) ， 它 们 都 具有 tanh 激活 函数 ， 还 使 用 了 相同 的 
自 定 义 LSTM 输出 层 (RnnoutputLayer) ， 配 合 MCXENT 损失 函数 和 softmax 激活 函数 。 回 顾 
一 下 第 6 章 ， 任 何 时候 想 预测 多 个 类 别 中 的 一 个 类 别 时 ， 使 用 softmax 激活 函数 ， 而 这 里 要 
预测 的 是 下 一 个 字符 (多 个 中 的 一 个 )。 下 面 来 看 看 这 段 代 码 与 第 5 章 的 版 本 的 细微 差别 。 


9.8.2 训练 、 跟 踪 进 度 及 理解 结果 


本 章 前 面 概括 了 将 代码 迁移 到 Spark 执行 时 涉及 的 基本 概念 ， 当 时 重点 介绍 了 以 下 (常见 
的 ) 代码 片段 。 


// 创 建 TrainingMaster 实 例 

int examplesPerDataSetObject = 1; 

TrainingMaster trainingMaster = new ParameterAveragingTrainingMaster 
.Builder(examplesPerDataSetObject) 
.(other configuration options) 
.build(); 




















下 
























































// 创 建 SparkDL4jMuLtiLayer 实 例 
SparkD1l4jMultiLayer sparkNetwork = new SparkD1l4jMultiLayer(sc, networkConfig, 
trainingMaster); 


下 一 个 代码 片段 将 会 展示 ， 在 一 个 新 修改 后 的 LSTM 示例 中 ， 如 何 使 用 一 个 名 为 
ParameterAverageTrainingMaster 的 特定 TrainingMaster 子 类 ， 以 及 如 何在 SparkD14jMultiLayer 
对 象 实例 中 封装 网 络 配置 ， 以 处 理 Spark 集群 操作 的 细微 差别 。 
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前 一 节 讨 论 了 使 用 TrainingMaster 变 体 和 Spark 封装 器 的 大 多 数 可 用 选项 ， 因 此 这 里 不 再 
重复 这 些 细节 。 


// 设 置 TrainingMaster。TrainingMaster 控 制 学 习 实 际 上 是 如 何在 Spark 上 执行 的 
// 这 里 使 用 标准 参数 平均 
// 关 于 这 些 配 置 选 项 的 详细 信息 ， 请 参见 : 
//https://deeplearning4j.org/spark#configuring 
int examplesPerDataSetObject = 1; 
ParameterAveragingTrainingMaster tm = new ParameterAveragingTrainingMaster 
.Builder(examplesPerDataSetObject) 
.WorkerpPrefetchNumBatches(2) // 异 步 预 读 取 两 个 批量 
.averagingFrequency(averagingFrequency) 
.batchSizeperWorker(batchSizepPerWorker) 
.build(); 
SparkD1l4jMultiLayer sparkNetwork = new SparkD1l4jMultiLayer(sc, conf, tm); 
sparkNetwork.setListeners(Collections.<IterationListener>singletonList(new 
ScorelterationListener(1))); 


// 进 行 训练 ， 然 后 生成 并 打印 来 自 网 络 的 样本 

for (int i = 0; i < numEpochs; i++) { 
// 进 行 一 轮训 练 。 在 每 轮训 练 的 最 后 ， 都 会 返回 一 个 经 过 训练 的 网 络 副本 
MultiLayerNetwork net = sparkNetwork.fit(trainingData); 











Tt 








// 从 网 络 中 采样 一 些 字符 (本 地 完成 ) 

Log.info("SampLing characters from network given initialization \"" + 
(generationInitialization == null ? "" : generationInitialization) + 

机 

String[] samples = sampleCharactersFromNetwork(generationInitialization, 
net, rng, INT_TO_CHAR, 
nCharactersToSample, nSamplesToGenerate); 

for (int j = 0; j < samples.length; j++) { 
log.info("----- Sample "+j+" ----- 加 
log.info(samples[j]); 





} 
除了 少数 儿 行 将 示例 移 到 Spark 的 代码 之 外 ， 训 练 模型 的 循环 都 是 类 似 的 ， 都 使 用 相同 的 
方法 (.fit()) 来 训练 模型 。 与 文件 系统 (如 本 地 的 或 HDFS) 交互 、 与 Spark 模型 通信 
和 其 他 相关 功能 都 在 底层 处 理 。 


9.9 基于 Spark 上 的 CNN 进 行 MNIST 建 模 


对 于 这 个 示例 ， 我 们 将 基于 第 5 章 的 CNN 的 例子 来 修改 ， 使 它 在 Spark 上 运行 。 示 例 9-6 
展示 了 用 Spark 构建 CNN 模型 的 代码 。 这 个 示例 类 似 于 本 章 前 面 的 MNIST 建 模 示例 ， 但 
是 这 次 网 络 架构 更 改 为 更 适合 图 像 数据 的 网 络 : CNN 架构 。 


示例 9-6 使 用 了 CNN 的 Spark MNIST 


public class MnistExample { 
private static final Logger Log = LoggerFactory.getLogger(MnistExample.class); 























T 

















public static void main(String[] args) throws Exception { 


// 创 建 spark context， 并 加 载 数据 到 内 存 





大 


294 | 第 9 章 


SparkConf sparkConf = new SparkConf() ; 
sparkConf.setMaster("local[*]"); 

sparkConf.setAppName ("MNIST"); 

JavaSparkContext sc = new JavaSparkContext(sparkConf); 


int exampLesPerDataSetObject = 32; 

DataSetIterator mnistTrain = new MnistDataSetIterator(32, true, 12345); 
DataSetIterator mnistTest = new MnistDataSetIterator(32, false, 12345); 
List<DataSet> trainData = new ArrayList<>(); 

List<DataSet> testData = new ArrayList<>(); 

while(mnistTrain.hasNext()) trainData.add(mnistTrain.next()); 
Collections.shuffle(trainData,new Random(12345)); 
while(mnistTest.hasNext()) testData.add(mnistTest.next()); 








// 获 取 训 练 数据 。 注 意 ， 对 于 实际 问题 不 推荐 使 用 并 行 化 。 
JavaRDD<DataSet> train = sc.parallelize(trainData); 
JavaRDD<DataSet> test = sc.parallelize(testData); 

















// 设 置 网 络 配 置 (和 每 个 标准 的 DL4I 网 络 一 档 
int nChannels = 1; 

int outputNum = 10; 

int iterations = 1; 

int seed = 123; 





mk 
Ne 

















log.info("Build model...."); 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(iterations) // 如 上 训练 迭代 
.regularization(true).12(0.0005) 
.learningRate( .01)//.biasLearningRate(0.02) 
.weightInit(WeightInit.XAVIER) 
.OptimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.Updater (Updater .NESTEROVS ) .momentum(0.9) 
.list() 
.layer(0, new ConvolutionLayer .Builder(5, 5) 
//nIn 和 nOut 指 定 深度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 的 过 滤器 的 数量 
.nNIn(nChannels) 
.stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(1, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.stride(2,2) 
.build()) 
.layer(2, new ConvolutionLayer .Builder(5, 5) 
// 注 意 nIn 无 须 应 用 到 后 面 的 层 
.stride(1, 1) 
.NOut(50) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(3, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
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.Layer(4，new DenseLayer .Builder().activation(Activation.RELU) 
.NOut(500).build()) 
.layer(5, new OutputLayer .Builder(LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 
.NOut(outputNum) 
.activation(Activation.SOFTMAX) 
.build()) 
.setInputType(InputType.convolutionalFlat(28,28,1)) // 查 看 下 面 的 注释 
.backprop(true).pretrain(false).build(); 





MultiLayerNetwork net = new MultiLayerNetwork(conf); 
net.init(); 





// 根 据 配 置 创建 Spark 多 层 网 络 
ParameterAveragingTrainingMaster tm = 
new ParameterAveragingTrainingMaster .Builder(examplesPerDataSetObject) 
.workerprefetchNumBatches(0) 








.SaveUpdater (true) 
.averagingFrequency(5) // 每 个 worker 执 行 5 个 
// 小 批量 的 训练 ， 
// 之 后 计算 平均 ， 
// 并 重新 分 布 参数 
.batchSizePerWorker(exampLesPerDataSet0bject) // 每 个 worker 在 每 次 训 | 
// 练 时 使 用 的 样本 数量 
.build(); 


SparkD1l4jMultiLayer sparkNetwork = new SparkDl4jMultiLayer(sc, net, tm); 


// 训 练 网 络 
log.info("--- Starting network training ---"); 
int nEpochs = 5; 
for( int i=0; i<nEpochs; i++ ){ 
sparkNetwork.fit(train); 
System.out.println("----- Epoch " + i + " complete ----- Ds 











// 使 用 Spark 评 佑 网络: 
Evaluation evaluation = sparkNetwork.evaluate(test); 
System.out.println(evaluation. stats()); 








} 


log 鸭 info( 中 类 炎 炎炎 炎炎 火炎 火炎 火光 类 类 类 EXamp Le finished***** 炎 火炎 火炎 火炎 火炎 火炎 火炎 炎炎 类 中 ) 时 
} 
下 面 详细 讨论 代码 中 特定 的 部 分 。 


9.9.1 配置 Spark 作 业 和 加 载 MNIST 数 所 


使 用 Java 版 本 的 Spark 执行 框架 需要 创建 一 个 SparkConf 对 象 和 一 个 JavaSparkContext 对 
象 实例 。 这 是 在 本 地 模式 或 Spark 集群 中 设置 运行 任务 的 地 方 *。 




















注 8: 车 在 本 地 运行 ， 直 接 按 原 样 运行 示例 即 可 。 该 示例 默认 在 Spark local 模式 运行 。 注 意 : Spark local 模 
式 应 仅 用 于 开发 /测试 。 对 于 单机 (例如 多 GPU 系统 ) 上 的 数据 并 行 训练 ,使 用 ParallelWrapper (在 
单机 上 它 比 直接 使 用 Spark 进行 训练 更 快 ) 。 
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当 使 用 Spark 时 ， 数 据 通常 需要 存储 在 RDD 结构 中 。 下 面 的 代码 片段 演示 了 如 何 使 月 
章 用 过 的 友 代 器 获取 原始 MNIST 数据 ， 并 将 数据 转换 为 JavaRDD 实例 。 


DataSetIterator mnistTrain = new MnistDataSetIterator(32, true, 12345); 
DataSetIterator mnistTest = new MnistDataSetIterator(32, false, 12345); 
List<DataSet> trainData = new ArrayList<>(); 

List<DataSet> testData = new ArrayList<>(); 

while(mnistTrain.hasNext()) trainData.add(mnistTrain.next()); 
Collections.shuffle(trainData,new Random(12345)); 
while(mnistTest.hasNext()) testData.add(mnistTest.next()); 











// 获 取 训 练 数据 。 注 意 ， 不 推荐 对 实际 问题 使 用 并 行 化 。 
JavaRDD<DataSet> train = sc.parallelize(trainData); 
JavaRDD<DataSet> test = sc.paraLLeLize(testData) ; 


将 所 有 MNIST 数据 收集 到 内 存 中 ， 然 后 使 用 Spark context 对 象 创建 JavaRDD。 


9.9.2 ”建立 LeNet CNN 架 构 与 训练 








EA 


囊 $ 


与 第 5 章 中 的 LeNet CNN 类 似 ， 前 面 的 代码 中 出 现 了 相同 的 架构 配置 。 为 了 简单 起 见 ， 再 


看 一 下 这 段 代 码 。 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed(seed) 
.iterations(iterations) // 如 上 训 | 练 迭代 
.regularization(true).12(0.0005) 
.learningRate( .01)//.biasLearningRate(0.02) 
.weightInit(WeightInit.XAVIER) 
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT) 
.Updater (Updater .NESTEROVS) .momentum(0.9) 
.list() 
.layer(0, new ConvolutionLayer .Builder(5, 5) 
//nIn 和 nOut 指 定 深度 。 这 里 的 nIn 是 nChannels，n0ut 是 要 应 用 的 过 滤器 的 数量 
.nNIn(nChannels) 
.Stride(1, 1) 
.NOut(20) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(1, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(2, new ConvolutionLayer .Builder(5, 5) 
// 注 意 nIn 无 须 应 用 到 后 面 的 层 
.Stride(1, 1) 
.nOut(50) 
.activation(Activation.IDENTITY) 
.build()) 
.layer(3, new SubsamplingLayer .Builder(SubsamplingLayer .PoolingType.MAX) 
.kernelSize(2,2) 
.Stride(2,2) 
.build()) 
.layer(4, new DenseLayer .Builder().activation(Activation.RELU) 
.NOut(500).build()) 
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.Layer(5，new OutputLayer .Builder(LossFunctions.LossFunction 

.NEGATIVELOGLIKELIHOOD) 

.NOut(outputNum) 

.activation(Activation.SOFTMAX) 

.build()) 
.setInputType(InputType.convolutionalFlat(28,28,1)) // 查 看 下 面 的 注释 
.backprop(true).pretrain(false).build(); 


示例 使 用 了 与 第 5 章 的 非 Spark 版 本 的 示例 相同 的 MutltiLayerConfiguration， 并 且 层 也 相 
同 ， 主 要 的 区 别 在 于 如 何 控制 Spark 上 训练 循环 的 并 行 化 ， 下 面 介绍 它 。 


在 Spark 上 训练 DL4J 模型 与 在 单机 上 所 做 的 事情 类 似 ， 但 也 存在 一 些 差异 。 在 下 面 的 代 
码 中 ， 来 看 一 下 示例 代码 的 训练 部 分 与 第 5 章 示 例 的 不 同 之 处 。 


// 根 据 配置 创建 Spark 多 层 网 络 
ParameterAveragingTrainingMaster tm = 
new ParameterAveragingTrainingMaster .Builder(examplesPerDataSetObject) 
.workerprefetchNumBatches(0) 
.SaveUpdater(true) 
.averagingFrequency(5) // 每 个 worker 执 行 5 
// 个 小 批量 的 训练 ， 
// 之 后 计算 平均 ， 并 
// 重 新 分 布 参数 
.batchSizePerWorker(examplesPerDataSetObject) // 每 个 worker 在 每 次 
i 


数量 











.build(); 


SparkD1l4jMultiLayer sparkNetwork = new SparkD1l4jMultiLayer(sc, net, tm); 


/ /训练 网 络 

Log.info("--- Starting network training ---"); 

int nEpochs = 5; 

for( int i=0; i<nEpochs; i++ ){ 
sparkNetwork.fit(train); 
System.out.println("----- Epoch "+ i+ 


complete ----- ys 


// 使 用 Spark 评 估 网 络 : 
EvaLuation evaluation = sparkNetwork.evaLuate(test); 
System.out.println(evaluation.stats()); 


} 

这 里 的 主要 区 别 是 (和 前 面 两 个 例子 一 样 ) : 

。 使 用 了 ParameterAveragingTrainingMaster 类 ， 

。 使 用 了 SparkDL4jMuLttiLayer 类 。 

除 此 之 外 ， 代 码 并 没有 太 大 的 区 别 。 
Spark 代码 与 本 地 代码 
DL4J 一 个 有 用 的 特性 是 在 本 地 机 器 上 创建 模型 的 方式 与 在 Spark 上 创建 模型 
的 方式 没有 显著 不 同 。 正 如 本 章 所 展示 的 ， 主 要 的 差异 并 未 涉及 大 量 代 码 的 
修改 。 
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人 工 智能 是 什么 


Cooper: 嘿 ，TARS， 你 的 诚实 参数 是 多 少 ? 
TARS: 90%。 
Cooper: 90%? 


TARS: 绝对 诚实 并 不 总 是 最 适合 人 际 交 往 ， 也 不 是 与 有 情感 的 人 类 最 安全 的 交 


Cooper: 好 的 ，90% 很 好 。 
一 一 电影 《星际 


穿越 》 中 的 一 幕 


人 工 智 能 是 一 门 与 哲学 研究 一 样 古老 的 学 科 。 它 随 着 时 间 不 断 演 变 ， 但 是 我 们 仍然 在 努 
力 寻 找 它 在 社会 中 的 位 置 ， 更 不 用 说 它 对 人 类 本 身 存 在 的 意义 。 关 于 人 工 智能 的 开端 ， 





作家 Pamela McCorduck 的 一 段 文字 写 得 最 好 ， 她 写 道 : 人 工 智 能 始 
愿望 ”。 


于 “锻造 众 神 的 古老 








虽然 McCorduck 就 这 个 话题 写 的 是 高 尚 的 散文 ， 今 天 的 许多 市 场 营销 也 都 围绕 着 雄心 勃勃 
的 主题 展开 ， 但 实际 上 在 业务 结果 方面 只 产 出 了 一 些 非 常 简单 的 功能 。 深 度 学 习 经 常 在 对 


人 工人 智能 的 讨论 中 出 现 ， 但 很 难 就 这 个 话题 进行 有 针对 性 的 交流 。 























之 所 以 增加 了 本 附录 ， 是 因为 实践 者 们 通常 需要 与 客户 、 主 管 和 管 型 
识 度 学 习 能 为 他 们 做 什么 以 及 如 何 融入 人 工 智 能 的 世界 。 本 附录 包含 











E 层 进行 切实 的 交谈 : 
对 人 工 智 能 学 科 历 史 


的 介绍 ( 供 参 考 )， 以 及 我 们 与 客户 和 业内 同行 的 探讨 。 我 们 希望 能 够 为 作为 实践 者 的 你 











们 提供 工具 ， 帮 助 你 们 重建 对 深度 学 习 的 论述 ， 并 与 项 目的 利益 相关 
实 的 期 望 并 加 以 落实 ， 这 会 更 好 地 促进 他 们 的 深度 学 习 成 果 向 前 发 展 
工 智 能 的 论述 已 被 夸大 ， 最 终 必 将 被 市 场 纠正 。 


本 附录 还 以 有 趣 和 发 人 深 省 的 方式 ， 油 发 研究 者 或 实践 者 的 想象 力 ， 





者 沟通 ， 了 解 他 们 现 
。 简 而 言 之 ， 围 绕 人 


使 我 们 心怀 畅想 ,但 
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同时 脚踏实地 。 我 们 将 研究 一 些 基本 定义 ， 简 单 回顾 人 工 智能 的 历史 ， 然 后 畅想 一 下 人 工 
智能 未 来 走向 何方 。 希 望 能 够 帮助 人 们 避免 掉 入 以 前 的 人 工 智 能 兴趣 陷阱 ， 通 过 负责 任 地 
设置 目标 和 期 望 ， 支 持 他 们 的 深度 学 习 项 目 更 加 成 功 。 


A.1 历史 回顾 


本 书 的 主题 是 深度 学 习 ， 在 媒体 和 市 场 营销 中 ， 它 一 直 附 属于 术语 “人 工 智能 ”"。 定 义 是 
易 变 的 ， 很 难 与 其 他 实践 者 或 利益 相关 者 讨论 这 个 话题 。 营 销 部 门 则 紧 跟 热点 ， 什 么 热门 
就 炒作 什么 。 以 下 是 不 久之 前 的 一 些 主题 : 


智能 电网 



































， 云 
。 大 数据 

当 与 这 些 领 域 或 深度 学 习 打 交道 时 ， 作 为 实践 者 ， 需 要 从 营销 炒作 中 分 辨 出 什么 是 真实 
的 。 这 要 求 我 们 首先 要 了 解 该 学 科 的 历史 ， 并 打下 坚实 的 基础 。 首 先 回顾 一 下 什么 是 深度 
学 习 ， 然 后 深入 讨论 人 工 智能 的 定义 。 


A.1.1 定义 深度 学 习 
第 1 章 和 第 3 章 给 出 了 深度 学 习 在 工作 上 的 定义 ， 将 其 描述 为 具有 以 下 特性 的 神经 网 络 。 
比 以 前 的 神经 网 络 的 神经 元 更 多 。 
更 复杂 的 连接 层 的 方式 。 
“ 寒 武 纪 大 爆发 ” 般 的 用 于 训练 的 计算 能 力 的 增长 。 
自动 特征 学 习 。 
这 些 网 络 和 其 他 机 器 学 习 模 型 (回归 、 分 类 ) 执行 相同 的 建 模 功能 ， 但 已 显示 出 它们 擅长 
下 面 这 样 的 任务 : 
。 生成 模型 (例如 生成 艺术 作品 和 文本 ) 
。 语音 识别 技术 
图 像 识 别 技术 
深度 学 习 的 另 一 个 关键 驱动 特征 是 它 能 够 以 无 关 领 域 的 方式 从 数据 中 自动 学 习 特 征 (与 人 
工 特征 工程 相反 )。 竣 度 学 习 的 这 些 能 力 正 推动 着 许多 新 技术 的 应 用 ， 并 激发 了 技术 界 以 
外 许多 人 的 想象 力 。 然 而 ， 深 度 学 习 本 身 并 没有 更 高 级 的 功能 ， 比 如 “自动 理解 询问 数 据 
集 的 最 有 趣 的 问题 >， 更 不 用 说 任何 感知 能 力 了 。 


A.1.2 定义 人 工 智 能 

人 工 智 能 的 历史 充满 了 神话 和 传说 ， 过 于 “热情 ”的 营销 部 门 总 是 试图 利用 最 新 的 技术 论 
述 。 为 了 定义 人 工 智能 ， 需 要 了 解 一 些 关 于 智能 研究 的 历史 、 现 代 论 点 ， 以 及 该 学 科 随时 
间 演 变 的 背景 。 


以 这 条 线 为 出 发 点 ， 我 们 来 探索 一 下 这 个 学 科 是 如 何 开 始 的 ， 以 及 如 何在 过 去 60 年 里 作 
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为 一 个 产业 发 展 起 来 的 。 
1. 智能 研究 
智能 研究 于 1956 年 正式 在 达 特 茅 斯 启动 ， 但 它 至 少 已 有 2000 年 的 历史 。 该 领域 基于 对 智 
能 实体 的 理解 ， 研 究 如 下 主题 : 

看 见 

学 习 
记忆 
推理 
我 们 认为 ， 这 些 主题 是 智能 所 具有 的 我 们 可 理解 的 能 力 的 组 成 部 分 (这 是 一 个 相对 的 观 
点 )。 我 们 可 以 在 历史 中 寻找 到 人 们 对 智能 的 研究 。 下 面 列 出 的 是 一 些 随时 间 出 现 的 智能 
研究 的 基石 。 
口 哲学 (公元 前 400 年) 
哲学 家 们 开始 把 大 脑 设想 为 一 种 机 械 机 器 ， 它 以 某 种 形式 对 知识 进行 编码 。 






































口 数学 
数学 家 发 展 了 处 理 逻 辑 语句 的 核心 思想 ， 以 及 推理 算法 的 基础 。 
口 心理 学 














心理 学 这 一 研究 领域 建立 在 动物 和 人 类 大 脑 能 够 处 理 信息 的 观念 之 上 。 
口 计算 机 科学 

实践 者 提出 用 硬件 、 数 据 结 构 和 算法 作为 对 大 脑 逆 向 工程 的 基本 组 成 部 分 。 
今天 看 到 的 人 工 智能 技术 的 研究 和 应 用 都 是 基于 这 些 基 本 原理 。 人 工 智 能 的 研究 通常 聚焦 
于 模拟 智能 系统 中 的 行为 或 思维 。 这 些 研究 通常 应 用 于 机 器 学 习 应 用 、 基 本 知识 系统 和 游 
戏 ( 例 如 国际 象棋 和 围棋 ) 等 领域 。 
然而 ， 智 能 研究 的 实现 还 存在 局 限 性 ， 还 未 出 现 具备 高 阶 大 脑 功能 〈 例 如 意识 ) 的 良好 模 
型 。 科 学 还 设 有 确定 大 脑 意识 的 所 在 ， 这 使 得 有 些 人 质疑 意识 是 否 真 的 是 大 脑 的 功能 。 我 
们 将 这 些 质疑 留 给 哲学 家 和 计算 机 科学 家 们 去 辩论 吧 。 
进一步 学 习 
Stuart Russell 和 Peter Norvig 所 著 的 《人 工 智 能 : 一 种 现代 的 方法 》 是 关于 
人 工 智能 主题 的 最 好 的 书 之 一 (或 去 掉 “ 之 一 ”)。 我 们 强烈 推荐 这 本 书 ， 它 
能 帮 你 更 全 面 地 了 解 人 工 智 能 的 深度 和 历史 。 




















2. 认 知 不 一 致 与 现代 定义 
在 讨论 人 工 智 能 等 与 社会 基础 的 许多 核心 观念 联系 在 一 起 的 话题 时 ， 我 们 便 会 发 现 围绕 基 
础 真理 建立 起 来 的 认 知 是 不 一 致 的 。Beau Cronin 写 道 : 
像 物 联 网 、Web 2.0 和 大 数据 一 样 ， 人 工 智 能 被 各 种 动机 和 背景 的 人 们 在 许多 不 同 
的 场景 中 讨论 和 辩论 ， 这 些 人 包括 学 者 、 商 人 、 记 者 和 技术 专家 。 和 其 他 定义 模 
糊 的 技术 一 样 ， 人 工 智 能 的 含义 也 很 难 确定 ， 每 个 人 都 能 看 到 他 想 看 到 的 东西 。 
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我 们 的 观点 以 及 定义 智能 的 部 分 问题 是 ， 我 们 天 马 行 空地 定义 起 了 意识 ， 然 后 扩展 到 更 具 
哲学 意味 的 问题 (例如 “什么 是 意识 ”) 和 宗教 问题 (例如 “什么 是 灵魂 ") 。 在 这 一 点 上 ， 
我 们 接触 到 了 一 些 复杂 和 领域， 任何 关于 灵魂 定义 的 讨论 都 是 混乱 且 复 杂 的 。 时 至 今日 ， 最 
好 的 定义 了 智能 的 地 图 都 被 “ 龙 出 没 ”的 地 区 所 和 铺 满 。 假 如 我 们 不 了 解 自然 智能 ， 就 更 难 
去 定义 人 工 智能 了 。 
Jason Baldridge 博士 写 了 一 篇 关于 人 工 智 能 和 机 器 学 习 的 文章 (http://bit.ly/2tUwIt5)， 并 谈 
到 了 围绕 着 这 个 话题 ， 冲 突 是 如 何 产 生 的 。 
不 管 人 工 智 能 的 技术 定义 有 多 么 微妙 ， 我 敢 肯 定 ， 当 公众 听 到 “人 工 智 能 ”时 ， 
他 们 会 想到 有 意识 的 非 生物 实体 ， 它 们 与 人 类 交互 就 像 我 们 彼此 交互 一 样 。 
他 们 没有 想到 一 个 专家 系统 可 以 分 析 复 杂 的 领域 特定 问题 ， 并 提供 有 趣 的 行为 过 
程 ， 也 没有 想到 机 器 学 习 算 法 可 以 在 大 量 的 数据 中 发 现 令 人 感 兴趣 的 模式 。 
尽管 如 此 ， 通 常 公众 似乎 都 能 在 心理 上 很 容易 弥合 这 两 种 在 人 工 智 能 相关 工作 领 
域 非常 不 同 的 科技 成 就 水 平 之 间 的 差距 。 
Baldridge 博士 接着 定义 了 深度 学 习 与 生物 大 脑 的 全 人 工 模 型 的 区 别 。 
所 有 这 些 进 步 ， 无 论 好 坏 ， 都 离 感官 机 器 很 远 。 深 度 学 习 的 灵感 来 自 人 类 神经 元 
的 功能 ， 但 是 就 我 所 知 ， 人 工 神 经 网 络 还 没有 类 似 于 生物 智能 的 架构 。 
因此 ， 定 义 这 些 很 艰难 ， 因 为 它们 很 复杂 ， 有 许多 观点 ， 触 及 许多 主题 。 我 们 通过 分 解 主 
题 ， 并 将 这 些 细 分 为 更 简单 的 主题 来 寻找 更 好 的 定义 。 
Francois Chollet 在 推 特 上 发 表 了 以 下 重要 观点 : 
人 工 智 能 是 一 个 定义 不 清 的 东西 ,许多 人 认为 它 具 有 不 受 控 制 的 、 不 切实 际 的 能 
力 ， 这 会 引起 麻烦 。 
之 后 他 再 次 发 表 推 文 : 


部 分 问题 是 一 些 公司 和 新 闻 记 者 在 炒作 ,模糊 了 科幻 和 现实 之 间 的 界限 ， 因 为 
这 样 有 卖点 。 
接着 Chollet 说 ， 我 们 应 该 “定义 ”正在 谈论 的 内 容 : 
当 谈论 “人 工 智 能 ”时 ,定义 你 所 谈论 的 内 容 ， 明 确 说 明 它 能 做 什么 ， 以 及 它 不 
能 做 什么 ， 避 免 脑 补 。 
这 是 一 个 很 好 的 建议 ， 业 界 需要 更 好 地 锁定 这 些 定义 。 
人 工 智 能 不 是 什么 。 声 称 机 器 学 习 是 人 工 智 能 的 人 会 对 整个 计算 机 科学 行业 造成 伤害 。 机 
器 学 习 就 是 分 类 和 回归 ， 它 绝 不 是 一 个 请 足 读 者 肚 渺 愿望 的 、 全 知 的 、 具 有 自我 意识 的 、 
有 助 于 解决 营销 问题 的 系统 。 正 如 Francois Chollet 之 前 提 到 的 ，( 现 在 ) 最 好 避免 脑 补 。 


很 多 时 候 ， 人 工 智能 都 被 营销 为 一 个 可 以 回答 所 有 问题 的 应 用 。 然 而 它 不 会 ， 至 少 不 会 很 
快 拥有 这 个 能 





















































注 1: 谷歌 研究 员 ，Keras 创建 者 。 一 一 译 者 注 
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改变 规则 。 心 理学 家 习惯 上 不 居于 将 人 脑 比 作 计算 机 的 说 法 。 在 2016 年 发 表 的 一 篇 文章 
(http:Wbitly/2tABWqX) 中 ，Robert Epstein 指出 : 


不 管 他 们 如 何 努 力 ， 脑 科学 家 和 认 知 心理 学 家 永远 不 会 在 大 脑 中 找到 贝多 芬 第 五 
交响 曲 的 副本 ， 或 者 单词 、 图 片 、 语 法 规则 或 任何 其 他 的 环境 刺激 的 副本 。 


不 过 ，Epstein 博士 还 没有 看 到 第 4 章 中 CNN 过 滤器 的 泻 染 。 他 在 文章 中 的 中 心 论点 是 : 
你 的 大 脑 不 处 理 信息 、 检 索 知 识 ， 或 者 存储 记忆 。 简 而 言 之 ,你 的 大 脑 不 是 电脑 。 


这 并 不 是 一 种 新 的 观点 ， 大 体 上 说 ， 在 过 去 的 60 年 里 ， 计 算 机 科学 以 外 的 学 科 一 直 持 有 
这 样 的 观点 。 正 如 Russell 和 Norvig 在 关于 人 工 智能 的 书 中 所 说 : 


大 体 上 知识 分 子 们 倾向 于 相信 “机 器 永远 不 能 做 义 ”。 


他 们 继续 展示 了 人 工 智 能 研究 人 员 系 统 地 回应 的 一 个 又 一 个 X 的 例子 。 因 此 ， 对 人 工 智 
能 的 研究 和 对 学 科 的 定义 ， 长 期 以 来 次 受 业 界 “改变 目标 ”做 法 的 影响 ， 偏 离 了 “人 工 智 
能 ”的 真正 含义 。 
分 解 人 工 智能 的 定义 。 分 解 人 们 今天 谈论 人 工 智 能 的 不 同 观 点 并 列 出 它们 ， 是 有 用 的 做 
法 。Beau Cronin 写 的 一 篇 文章 (http://oreil.ly/2sODKk2) 中 使 用 了 以 下 四 个 主要 的 分 解 后 
对 人 工 智能 的 定义 。 

作为 对 话 者 的 人 工 智能 ， 

— HAL、 Siri、Cortana、Watson; 

一 会 话 智能 ; 

一 有 限 推理 。 

作为 机 器 人 的 人 工 智 能 : 

一 仿 人 型 机 器 ， 

一 机 械 形式 的 人 工 智能 ， 

- 终结 者 或 C3PO 这 样 的 机 器 人 ， 

一 类 似 于 对 话 者 ， 但 有 人 形 的 身体 。 
。 作为 推理 机 的 人 工 智能 ; 

一 早期 的 人 工 智 能 先驱 们 被 更 精致 和 高 洁 的 任务 所 吸引 一 一 下 棋 、 解 决 逻 辑 证 明和 计 

划 复 杂 的 任务 ; 

- 仍然 在 努力 解决 适合 于 孩子 们 的 简单 任务 。 

作为 大 数据 学 习 者 的 人 工 乱 能: 

- 最 近 的 定义 ; 

一 看 到 很 多 人 在 谈论 构建 “人 工 智 能 模型 ”。 
下 面 我 们 用 批判 性 的 眼光 来 看 一 看 这 些 分 解 后 的 定义 。 
对 于 定义 分 解 的 批判 性 评论 。 作 为 对 话 者 的 人 工 智 能 和 作为 大 数据 学 习 者 的 人 工 智 能 ， 都 
是 将 许多 机 器 学 习 技 术 结 合 到 商用 产品 中 而 得 到 的 最 新 定义 。 作 为 对 话 者 的 人 工 智 能 可 以 
基于 语音 识别 来 执行 基本 功能 。 它 是 语音 到 文本 机 器 学 习 (或 深度 学 习 ) 和 自然 语言 处 理 
(NLP) 技术 的 结合 ， 以 确定 用 户 想 完成 什么 。 作 为 对 话 者 的 人 工 智能 的 推理 能 力 有 限 ， 因 
为 它 通 常 依赖 于 一 个 单独 的 系统 来 发 送 语音 到 文本 和 以 NLP 处 理 的 结果 为 输入 。 这 个 单独 
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的 系统 常常 是 经 典 的 规则 库 的 系统 或 “专家 系统 ”的 基础 。 

即使 用 户 最 初 可 能 以 与 系统 对 话 为 乐 ， 甚 至 被 它 的 “智能 ”所 骗 到 ， 但 他 们 很 快 就 会 意识 
到 交互 的 局 限 性 。 最 终 ， 作 为 对 话 者 的 人 工 智能 是 机 器 学 习 技 术 一 个 精心 设计 的 组 合 ， 随 
着 时 间 的 推移 ， 这 些 技术 变 得 足够 好 ， 可 以 逐渐 地 集成 到 有 用 的 消费 品 中 。 

作为 机 器 人 的 人 工 智能 是 这 个 概念 的 一 个 有 趣 的 体现 ， 但 是 最 终 还 是 像 对 话 者 一 样 依赖 机 
器 学 习 子 系统 的 网 络 。 作 为 推理 机 的 人 工 智能 是 人 工 智能 的 经 典 实现 ， 但 是 近年 来 它 停留 
在 了 人 们 想 把 它 集 成 到 工业 产品 的 水 平 。 它 仍然 是 智能 系统 中 的 核心 组 件 ， 将 多 个 组 件 连 
接 在 一 起 以 产生 价值 ， 就 像 对 话 者 的 例子 一 样 。 

“作为 大 数据 学 习 者 的 人 工 智 能 ”是 一 个 引起 争议 的 用 语 ， 在 过 去 的 几 年 (2010 一 2015) 
里 已 经 流行 起 来 。 很 多 时 候 ， 市 场 营销 部 门 会 将 产品 中 的 基础 机 器 学 习 技 术 对 客户 数据 的 
使 用 重新 命名 为 “人 工 智 能 "。 更 糟糕 的 是 ， 其 他 时 候 ， 该 产品 仅仅 执行 基本 的 商业 智能 
功能 ， 但 也 被 归 为 这 一 类 。 机 器 学 习 (或 深度 学 习 ) 单独 的 实践 不 应 被 视 作 一 种 人 工 智 
能 ， 然 而 它 是 智能 系统 一 个 有 用 的 子 系 统 。 


对 深度 学 习 的 营销 应 表现 得 克制 


在 给 机 器 学 习 模 型 (深层 学 习 模 型 】》 贴 上 “人 工 智能 ”的 标签 时 ， 应 该 表现 
得 克制 。 过 度 炒 作 这 个 概念 最 初 可 能 吸引 到 资金 ， 但 从 长 远 来 看 会 阻碍 项 目 。 



































人 工 智 能 的 第 五 个 雄心 勃勃 的 定义 。 另 一 种 界定 “什么 是 人 工 智 能 ”的 方法 是 问 另 一 个 问 
题 。 如 有 果 我 们 从 “什么 能 终结 “什么 是 人 工 智 能 ”的 和 争论 ”的 视角 ， 如 何 看 待 这 个 问题 ? 
如 果 出 现 一 种 超越 人 类 的 、 有 自我 意识 的 智能 ， 它 比 人 类 更 好 地 理解 我 们 的 世界 (和 数 
据 )， 我 们 可 能 称 之 为 “真正 的 人 工 智 能 "， 或 者 ， 外 星人 。 

不 邓 的 是 ， 追 逐 人 工 智 能 的 海 市 屡 楼 是 导致 不 切实 际 的 期 望 的 原因 ， 不 管 取得 了 多 少 实质 
性 的 进步 ， 这 种 期 望 总 会 压倒 这 个 行业 。 

3. 人 工 智能 寒冬 

人 工 智能 行业 经 历 了 多 个 兴趣 和 资金 增加 和 减少 的 时 期 。 这 些 兴趣 减少 的 时 期 是 该 行业 不 
切实 际 过 度 炒 作 的 结果 ， 随 后 是 一 连 串 可 预测 的 低迷 结果 。 这 个 低迷 时 期 被 称 为 “人 工 智 
能 寒冬 ”， 现 象 包括 学 术 研 究 经 费 的 削减 ， 风 险 资 本 兴趣 的 降低 ， 以 及 任何 与 “人 工 智 能 ” 
一 词 沾边 的 事情 都 会 被 视 为 市 场 营 销 领 域 的 耻辱。 

这 些 周期 导致 的 结果 是 ， 良 好 的 技术 进步 (例如 语音 识别 或 光学 字符 识别 ) 被 重新 命名 ， 
并 被 集成 到 其 他 产品 中 。 

人 工 智能 寒冬 1: (1974 一 1980)。 第 一 个 人 工 智能 寒冬 的 开端 是 机 器 翻译 没 能 引发 热潮 。 
人 们 对 联结 主义 (神经 网 络 ) 的 兴趣 在 20 世纪 70 年 代 衰退 ， 而 且 对 语音 理解 研究 的 过 度 
承诺 ， 也 没有 出 现成 果 。 

1973 年 ，DARPA 减少 了 人 工 智 能 领域 的 学 术 研 究 。 英 国 的 Lighthill 报告 严厉 批评 了 该 领 
域 ， 导致 研究 经 费 被 进一步 前 减 。 

人 工 智 能 寒冬 中 : 20 世纪 80 年 代 末 。20 世纪 80 年 代 末 和 90 年 代 初 ， 诸 如 专家 系统 和 
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LISP 机 器 等 技术 被 过 度 推广 ， 这 两 项 技术 都 未 能 达到 预期 。 美 国 国家 战略 计算 计划 在 这 个 
周期 结束 时 取消 了 新 的 支出 。 第 五 代 计算 机 也 未 能 实现 其 目标 。 
4. 人 工 智能 寒冬 的 共同 点 
这 些 寒冬 的 共同 点 是 行业 出 现 了 一 系列 所 谓 的 有 前 景 的 、 成 功 的 过 度 炒作 。 当 炒作 得 差 不 
多 之 后 ， 炒 作 进 入 谷底 ， 学 术 和 行业 研究 的 资金 涌 入 人 工 智 能 领域 。 一 些 基于 可 靠 技术 的 
实际 项 目 至 少 达 到 了 他 们 的 部 分 目标 ， 并 解决 了 实际 问题 ， 然 而 市 场 上 大 多 数 的 承诺 都 没 
能 免 现 ， 泡 沫 化 的 低谷 期 隐约 可 见 。 
冬天 杀 死 弱者 。 
一 些 有 趣 的 应 用 慢 慢 地 从 低谷 中 显现 ， 被 重新 命名 (如 “语音 识别 ”)， 并 被 作为 特性 集成 
到 其 他 项 目 中 ， 它 们 通常 归于 “潜在 智能 ”改进 分 类 中 。 这 其 中 包括 : 
。 信息 学 
。 机 器 学 习 
。 知识 库 系 统 
。 业务 规则 管理 
。 认 知 系统 
智能 系统 

。 计算 智能 
名 字 的 改变 部 分 原因 可 能 是 他 们 认为 该 领域 与 人 工 智 能 根本 不 同 ， 以 及 新 的 名 称 甩 掉 了 
“人 工 智 能 ”虚假 承诺 的 耻辱 ， 有 助 于 获得 资金 。 
下 面 是 20 世纪 80 年 代 的 一 个 人 工 智能 会 议 中 的 有 趣 记录 。 

在 会 议 上 ，Roger Schank 和 Marvin Minsky 这 两 位 从 20 世纪 70 年 代 的 “寒冬 ” 

幸存 下 来 的 人 工 智能 研究 领军 人 物 警 告 业界 : 80 年 代 人 们 对 人 工 智能 的 热情 已 

经 失控 ， 失 望 肯 定 会 接 足 而 至 。 三 年 后 ， 十 亿美 元 的 人 工 智能 产业 开始 前 溃 。 


A m=, 和 ab \ = 
A.2 ”如今 驱 动 着 人 们 对 人 工 智能 的 兴趣 的 动力 
如 今 有 三 大 动力 正在 驱动 着 人 们 对 人 工 智 能 的 兴趣 。 
(1) 计算 机 视觉 技术 在 21 世纪 00 年 代 后 期 的 巨大 飞跃 。 
(2) 21 世纪 10 年 代 初 的 大 数据 浪潮 。 
(3) 顶尖 科技 公司 在 深度 学 习 领 域 应 用 的 进展 。 
2006 年 ， 多 伦 多 大 学 的 Geoff Hinton 和 他 的 团队 发 表 了 一 篇 关于 DBN 的 重要 论文 *， 为 业 
界 提供 了 可 能 改善 现 有 技术 的 创新 火花 。 之 后 的 十 年 里 ， 在 顶级 期 刊 上 出 现 了 深度 学 习 的 
滚滚 浪潮 。 这 些 出 版 物 提 高 了 模型 在 许多 领域 中 准确 度 的 最 高 分 数 ， 不 仅仅 在 计算 机 视觉 
领域 ， 并且 深度 学 习 在 短 时 间 内 占领 了 应 用 机 器 学 习 领 域 。 






























































注 2: Hinton, Osindero, Teh. A fast learning algorithm for deep belief nets, 2006. https://www.cs.toronto.edu/ 
~hinton/absps/fastnc.pdf. 
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型 


大 型 网 络 公司 如 谷歌 、Facebook 和 亚马逊 都 在 关注 顶级 期 刊 以 获得 最 好 的 创意 。 这 些 公司 
看 到 了 Yann LeCun、Hinton 等 开发 的 成 果 ， 并 开始 在 自己 的 流水 线 中 实施 这 些 想 法 。 这 
新 的 应 用 〈 例 如 更 好 的 人 脸 检 测 ， 或 亚马逊 的 Alexa) 被 技术 媒体 广泛 认可 。 


21 世纪 00 年 代 中 期 ， 由 西海 尾 的 大 型 网 络 公司 开发 的 许多 存储 和 ETL 技术 开始 开源 ， 如 
Hadoop 和 MongoDB。 


这 些 网 络 公司 (谷歌 、 雅 虎 等 ) 已 经 增强 了 它们 的 存储 和 ETL 系统 ， 之 后 它们 构建 了 新 的 
机 器 学 习 和 深度 学 习 技 术 ， 以 更 好 地 利用 这 些 新 的 更 大 的 数据 集 。 


传统 的 财富 500 强 企 业 从 21 世纪 10 年 代 初 开始 引入 在 线 大 型 分 布 式 系统 来 保存 不 断 增 长 
的 事务 性 数据 集 。 这 些 企业 计划 用 5 到 10 年 左右 的 时 间 来 跟 上 西海 岸 的 那些 网 络 公 司 。 
这 引起 了 人 们 在 财富 500 强 企 业 以 及 使 传统 企业 更 好 地 利用 对 大 数据 的 投资 的 系统 上 应 用 
深度 学 习 的 兴 
如 果 将 前 面 的 三 个 因素 结合 在 一 起 ， 并 结合 Watson (赢得 Jeopardy 竞 答 节目 )、AlphaGo 
(赢得 围棋 比赛 ) 和 谷歌 的 自动 驾驶 汽车 等 非常 成 功 的 知名 项 目的 实例 ， 就 会 创造 一 个 热 
情 超出 前 方 道 路 现实 的 环境 。 
对 人 工 智 能 的 报道 和 热情 达到 高 汗 。 不 幸 的 是 ， 在 一 个 又 一 个 轮回 中 ,我们 也 看 到 潮水 最 
终 退 去 。 有 些 实际 应 用 使 用 了 复杂 数据 集 进行 深度 学 习 。 以 下 是 部 分 这 样 的 应 用 : 

医疗 保健 (例如 预测 病人 住院 时 间 ) 

零售 (例如 分 析 购 物体 验 ) 

电信 / 金融 服务 (例如 分 析 欺 诈 模 式 的 交易 ) 
本 书 涵盖 上 述 一 些 用 例 (以 及 更 多 其 他 的 用 例 )。 当 作为 实践 者 的 你 ， 在 准备 应 用 深度 学 习 和 
人 工 智能 时 ， 建 议 去 找 诸如 此 类 的 真实 用 例 ， 并 且 站 在 “坚实 的 基础 ”上 。 这 里 提 到 的 “ 坚 
实 的 基础 ”是 一 个 比喻 ， 因 为 最 终 潮 水 会 退去 ， 和 希望 我 们 的 实践 者 同伴 届时 会 有 立足 之 地 。 


A.3 寒冬 将 至 


在 本 书 中 ， 诬 度 学 习 本 身 已 经 落地 。 它 是 一 个 用 于 在 复杂 数据 类 型 上 进行 行业 领先 的 神经 
网 络 建 模 的 框架 。 不 过 深度 学 习 本 身 不 能 汪 足 前 面 提 到 的 人 工 智能 的 第 五 个 雄心 勃勃 的 定 
义 ， 因 此 我 们 在 这 方面 没有 什么 可 担心 的 。 

2016 年 被 营销 的 系统 是 “人 工 智能 +X”， 显 然 使 用 的 是 基本 的 机 器 学 习 。AlphaGo 是 游戏 
领域 的 一 个 巨大 的 进步 ， 但 是 正如 在 IBM 这 蓝 和 国际 象棋 的 经 历 中 所 看 到 的 ， 游 戏 领域 的 
进步 并 不 总 是 容易 转化 为 商业 用 例 “。 

不 幸 的 是 ， 营 销 部 门 正在 走 前 两 个 人 工 智能 寒冬 的 老路 。 与 之 前 的 寒冬 一 样 ， 促 使 该 领域 
真正 进步 的 “煤炭 ”会 在 即将 到 来 的 第 三 个 人 工 智 能 寒冬 中 ， 使 真正 的 热心 者 和 核心 研究 
人 员 保 持 温 暖 。 


| 发 

























































































注 3: 不 过 .Jeopareay 贡 目 的 问题 似乎 “已 经 解决 了 ”。 
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附录 B 





前 言 


RL4J 与 强化 学 习 


作者 : Ruben Fiszel 


本 附录 首先 介绍 强化 学 习 ， 然 后 详细 解释 用 于 像素 输入 的 深度 Q 网 络 (DQN) ， 最 后 给 出 
一 个 RL4J 示例 。 下 面 介绍 强化 学 习 的 核心 概念 。 

强化 学 习 是 机 器 学 习 中 一 个 令 人 兴奋 的 领域 。 它 基本 上 是 在 给 定 环境 中 学 习 有 效 策略 的 过 
程 。 简 单 说 来 ， 它 非常 类 似 于 巴 甫 洛 夫 条 件 反 射 : 为 给 定 的 行为 分 配 奖励 ， 随 着 时 间 的 推 














移 ， 代 理会 学 习 复制 这 样 的 行为 以 获得 更 多 


马尔 可 夫 决 策 过程 





的 奖励 。 


我 们 将 这 样 的 环境 定义 为 马尔 可 夫 决 策 过 程 (Markov Decision Process，MDP) ， 它 是 五 个 


元 组 的 组 合 。 


。 状态 集合 5S (例如 在 国际 象棋 中 ， 状 态 是 棋盘 配置 )。 
。 可 能 的 动作 集合 4 (在 国际 象棋 中 是 每 个 可 能 的 配置 中 每 个 可 能 的 移动 ， 例 如 e4-e5)。 








。 给 定 当前 状态 和 动作 ， 下 一 个 状态 的 条 


伯 分 布 Pe 必 , a)。( 在 国际 象棋 这 样 的 确定 性 环 














境 中 ， 只 有 一 个 状态 s' 的 概率 为 1， 而 其 


他 状态 的 概率 为 0。 然 而 在 随机 环境 中 ， 分 布 





并 不 简单 ， 如 皂 硬 币 。) 
。 从 状态 s 迁移 到 s' 的 奖励 函数 : RG,s) ( 





例如 在 国际 象棋 中 ，+1 表示 最 终 导致 胜利 的 移 


动 ，-1 表示 最 终 导 致 失败 的 移动 ， 否 则 为 0)。 
。 折 现 系数 : y。 比 起 对 未 来 的 奖励 , 这 更 是 对 当前 的 奖励 (这 个 概念 在 金融 领域 很 常见 )。 
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使 用 动作 集合 A。 
通常 使 用 从 给 定 状 态 开始 的 可 用 动作 的 集合 4, 比 使 用 完整 集合 4 更 方便 。 
4,: 4 中 满足 条 件 P(s'1s, a) 的 元 素 a。 





马尔 可 夫 属 性 ( 见 图 B-1) 是 无 记忆 的 ， 当 到 达 一 个 状态 时 ， 过 去 的 历史 (以 前 访问 过 的 
状态 ) 不 影响 下 一 个 迁移 和 奖励 ， 只 有 现在 的 状态 才 是 重要 的 。 


























B-{1: MDP 模式 


术语 


在 继续 学 习 之 前 ， 首 先 定义 一 些 常 见 的 单词 和 术语 。 


口 


口 





最 终 /终端 状态 
没有 可 用 动作 的 状态 是 最 终 / 终端 状态 。 
情节 


情节 是 从 最 初 状 态 到 最 终 状 态 的 一 个 完整 的 剧本 。 


S0G0， 1031 91.7" ,S 


n 





累积 奖励 
累积 奖励 是 整个 情节 累积 奖励 的 折 现 总 和 。 

R = 对 07 7 
策略 
策略 是 代理 在 每 个 状态 选择 行动 的 方式 ， 用 x 表 示 。 
最 优 策略 














最 优 策略 是 使 累积 奖励 的 期 望 最 大 化 的 理论 策略 。 从 期 望 值 的 定义 和 大 数 定律 来 看 ， 在 
充分 发 生 的 情况 下 ， 这 种 策略 的 平均 累积 奖励 最 高 。 这 种 策略 可 能 是 可 望 而 不 可 即 的 。 




















强化 学 习 的 目标 是 训练 代理 ， 使 代理 的 学 习 策 略 尽 可 能 接近 最 优 策略 。 
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B.1 不 同 的 设置 


“Qui peut le plus peut le moins.”( 能 难 必 能 易 。) 


B.1.1 无 模型 


条 件 分 布 和 奖励 函数 构成 环境 的 模型 。 在 西洋 双 陆 棋 的 游戏 中 ， 模 型 是 这 样 的， 每 个 可 
能 的 移动 是 由 已 知 的 人 般 子 分 布 决定 的 ， 并 且 我 们 能 够 在 不 去 实际 移动 它们 的 情况 下 预测 
每 次 移动 的 奖励 ， 因 为 我 们 可 以 计算 棋盘 的 新 值 。TD-gammon 算法 使 用 这 个 事实 来 学 习 
V 函数 (参见 B.2 节 )。 

一 些 强 化 学 习 算 法 可 以 在 不 给 出 模型 的 情况 下 工作 。 然 而 ， 为 了 学 习 最 优 策略 ， 它 们 在 训 
练 中 还 需要 学 习 模型 ， 这 被 称 为 无 模型 强化 学 习 。 无 模型 算法 非常 重要 ， 因 为 现实 世界 中 
大 多 数 复杂 问题 都 属于 这 一 类 。 此 外 ， 无 模型 只 是 一 个 额外 的 约束 ， 它 更 加 强大 ， 因 为 它 
是 基于 模型 的 强化 学 习 的 超 集 。 


B.1.2 ”观察 设置 

你 也 许 只 被 允许 观察 状态 的 部 分 数据 ， 而 不 能 观察 其 全 部 数据 。 这 与 隐 马 尔 可 夫 链 背 后 的 
思想 相同 ， 这 是 部 分 和 完全 观 罕 的 设置 之 间 的 差异 。 例 如 我 们 的 视野 是 对 宇宙 完整 状态 
( 字 宙 中 每 个 角落 的 位 置 和 能 量 ) 很 小 的 局 部 的 观察 。 幸 运 的 是 ， 运 用 历史 经 验 ， 我 们 可 
以 将 部 分 观察 设置 归纳 为 完全 观察 (状态 变 为 先前 状态 的 累积 )。 

然而 ， 最 常见 的 不 是 累积 整个 历史 的 数据 ， 要 么 只 (以 窗口 方式 ) 堆 又 最 后 hh 个 观 窦 状 
态 ， 要 么 使 用 RNN 来 学 习 记 忆 什 么 以 及 忘记 什么 (这 基本 上 就 是 LSTM 的 工作 方式 )。 
为 了 与 现 有 符号 保持 一 致 ， 我 们 稍微 活用 一 下 语言 ， 将 历史 (甚至 截断 的 历史 ) 也 称 为 
“状态 ” ， 并 且 也 标记 为 9 。 


B.1.3 单 人 对 抗 游戏 


单 人 游戏 可 以 很 自然 地 被 翻译 成 MDP (the moment during which the player is in control) 。 
状态 代表 玩家 控制 的 时 刻 ， 来 自 这 些 状 态 的 观测 值 是 状态 之 间 累 积 的 所 有 信息 (例如 控制 
帧 之 间 所 有 的 像素 帧 ) ， 动 作 是 玩家 可 以 使 用 的 所 有 命令 (在 Doom 游戏 中 是 上 、 右 、 左 、 
射击 等 ) 。 


强化 学 习 也 可 以 自己 玩 对 抗 游 戏 : 代理 和 自身 对 抗 。 在 这 种 环境 中 ， 经 常会 存在 纳什 均 
衡 ， 这 样 一 来 ， 你 的 对 手 就 像 一 个 完美 的 玩家 ， 它 总 是 符合 你 的 兴趣 。 以 对 其 有 意义 的 国 
际 象棋 为 例 。 给 定 一 个 棋盘 布局 ， 对 阵 一 位 象棋 大 师 的 一 步 好 棋 对 于 初学 者 来 说 依然 是 一 
步 好 棋 。 不 管 代理 目前 的 水 平 如 何 ， 通 过 和 自己 比赛 ， 代 理 依 然 能 够 知道 它 之 前 移动 的 质 
量 〈 如 果 它 赢 了 ， 就 视 为 好 动作 ， 如 果 它 输 了 ， 则 视 为 坏 动作 )。 

当然 ， 如 果 从 一 开始 就 直接 与 一 个 非常 好 的 代理 较量 ， 那 么 在 神经 网 络 的 上 下 文中 梯度 信 
息 的 质量 更 高 。 但 是 ， 一 个 代理 可 以 通过 和 自己 ， 一 个 同样 水 平 的 代理 比赛 来 学 习 提高 自 
己 的 水 平 ， 这 真是 令 人 惊讶 。 这 实际 上 是 AlphaGo (来 自 DeepMind 公司 ， 击 败 了 世界 冠 
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军 的 围棋 代理 ) 采用 的 训练 方法 。 该 策略 以 大 师 下 棋 的 数据 集 为 起 点 〈 最 初 训练 )， 之 后 
它 使 用 强化 学 习 以 及 与 自己 下 棋 的 方式 来 进一步 提高 水 平 (用 Elo 算法 评分 量化 ) ， 最 后 代 
理 变 得 比 它 从 原始 数据 集中 学 到 的 策略 更 好 ， 毕 竞 它 战胜 了 大 师 。 为 了 计算 最 终 的 策略 ， 
AlphaGo 团队 动用 巨大 的 计算 能 力 ， 并 将 策略 梯度 与 蒙特 卡 洛 搜索 树 相 结合 。 

这 个 设置 与 从 像素 学 习 有 点 不 同 。 首 先 ， 因 为 输入 没有 高 维 ， 所 以 流 形 更 接近 它 的 戏 入 空 
间 。 然 而 在 这 种 情况 下 ， 仍 然 使 用 卷 积 层 来 高 效 利 用 一 些 子 网 格 棋盘 布局 的 局 部 性 。 再 
则 ， 因 为 AlphaGo 不 是 无 模型 的 〈 它 是 确定 性 的 )。 


B.2 Q 学 习 
我 不 是 概率 论 的 朋友 ， 从 我 们 亲爱 的 朋友 马克 斯 . 玻 恩 给 予 它 生命 的 那 一 刻 起 ， 
我 就 讨厌 它 。 因 为 虽然 看 起 来 它 使 每 件 事情 都 变 得 简单 容易 ， 但 从 原理 上 看 ， 它 
把 每 件 事情 都 导 平 了 ， 使 真正 的 问题 隐藏 了 起 来 。 






















































































一 一 埃 尔 温 ， 共 定 请 


B.2.1 从 策略 到 之 后 的 神经 网 络 
我 们 的 目标 是 学 习 使 以 下 表达 式 最 大 化 的 最 优 策略 x*。 

BE[R]= 瑟 [Zou] 
我 们 引入 一 个 辅助 函数 : 





Vs)= Br +yrn ty + 和 + = 5s， 每 个 状态 后 的 策略 是 7 
这 是 一 个 状态 在 策略 r 之 后 的 期 望 累积 报酬 。 假 设 有 一 个 神 论 ， 比 如 
V.,(s) 
它 给 出 了 最 优 策略 的 V 函数 。 由 此 我 们 可 以 通过 定义 一 个 策略 来 检索 最 优 策略 ， 该 策略 从 
当前 状态 的 所 有 可 用 动作 中 选择 使 广 .(s) 的 期 望 值 最 大 化 的 动作 。 这 是 贪 焚 的 做 法 ， 最 优 
策略 就 是 针对 廊 . 的 贪 禁 策 略 。 
Tx(S)chooses a st a=arg max, [Ei(7, +7yV(s,)|s, =s,a, = a)| 


细心 的 话 你 会 发 现 这 里 可 能 有 些 问题 。 在 无 模型 设置 中 ， 我 们 不 能 从 5, 预测 下 一 个 状态 
Sa， 因 为 我 们 忽略 了 迁移 模型 。 即 使 有 了 这 个 神 论 ， 我 们 的 模型 仍然 是 不 可 计算 的 ! 


为 了 解决 这 个 非常 烦人 的 问题 ， 我 们 将 引入 另 一 个 辅助 函数 ，Q 函数 : 
Qi:(5,a) 二 E, [2 + 7YVis(s,,) | 3 01 元 a] 


在 贪 禁 设置 中 存在 以 下 关系 : 

















Vi (s,)= max, OQ (s,,a) 
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假设 我 们 没有 V 神 论 ， 但 有 Q 神 论 ， 现 在 可 以 重新 定义 zr*， 如 下 所 示 : 

Ts*#(S)chooses a s.t a =max, [Q..(s, 9)]| 
没有 更 多 不 可 计算 的 期 望 , 干净 整洁 。 
然而 我 们 只 是 把 期 望 从 神 论 外 部 移 到 内 部 ， 并 且 现 实 世 界 中 神 论 并 不 存在 。 
这 里 的 诀窍 在 于 ， 我 们 已 经 将 一 个 抽象 的 概念 ， 即 策略 ， 简 化 为 一 个 数值 函数 ， 并 且 该 函 
数 可 能 是 符合 预期 的 相对 “光滑 ”( 连 续 ) 的 。 对 于 我 们 来 说 幸运 的 是 ， 我 们 可 以 使 用 神 
经 网 络 来 逼近 这 种 复杂 的 国 数 。 
神经 网 络 是 通用 的 函数 逼近 器 ， 它 们 可 以 逼近 任何 连续 可 微 的 国 数 ， 然 而 它们 可 能 陷入 局 
部 极 值 ， 并 且 当 把 神经 网 络 放 入 方程 中 时 ， 许 多 来 自强 化 学 习 的 收敛 性 证 明 不 再 有 效 。 这 
是 因为 它们 的 学 习 不 像 其 表格 类 型 的 同类 学 习 那 样 具有 确定 性 或 有 界 性 。 但 在 大 多 数 情况 
“、， 只 要 使 用 正确 的 超 参 数 ， 它 们 都 会 极其 强大 。 我 们 将 深度 学 习 与 强化 学 习 结 合 起 来 ， 
称 之 为 深度 强化 学 习 。 


B.2.2 ”策略 迭代 


此 时 ， 你 掌握 的 机 器 学 习 的 知识 和 简单 陈旧 的 常识 可 能 告诉 你 ， 我 们 的 方法 仍然 缺少 一 些 
东西 。 神 经 网 络 可 以 逼近 已 经 有 标签 的 函数 ， 但 神 论 是 不 可 召唤 的 ， 所 以 我 们 需要 用 另 一 
种 方式 获得 标签 。 

这 就 是 蒙特 卡 洛 方法 的 魅力 所 在 ， 该 方法 依赖 重复 随机 抽样 来 计算 估计 器 〈 例 如 计算 x)。 
如 有 果 我 们 从 给 定 的 状态 随机 地 玩 游戏 ， 平 均 而 言 ， 更 好 的 状态 应 该 得 到 更 好 的 奖励 (这 要 
感谢 大 数 定律 )。 因 此 在 不 了 解 环境 的 情况 下 ， 你 可 以 收集 一 些 关 于 状态 的 期 望 值 的 信息 。 
例如 在 扑 殉 中， 即使 随机 做 出 每 个 决定 ， 平 均 而 言 ， 高 手 也 会 比 庸 手 赢得 更 多 。 蒙 特 卡 罗 
搜索 树 也 是 基于 这 个 特性 的 〈 很 惊讶 ， 对 吗 ? )。 这 是 一 种 无 监督 学 习 的 探索 阶段 ， 使 我 
们 能 够 提取 有 意义 的 标签 。 

更 正式 地 ， 根 据 给 定 策略 xn、 状 态 s 和 动作 a， 可 以 获得 Q(s, a) 的 近似 值 ， 根 据 定义 对 其 
进行 采样 。 


















































OQ.(s,a)=E[n+yn ,t+y"r, |s, =s,a,= a 
简 而 言 之 ， 从 状态 s 开始 ， 可 以 根据 策略 x 玩 足够 多 的 次 数 ， 来 获得 O.(s, a) 的 标签 。 
来 自 一 个 信号 集 ( 见 图 B-2)。 


Tt 7t+1 Tn 
9 … ”一 9) 
1 at Qt+1 an 由 


目标 
Qa (si, ai) 二 及 DD, 了 ri 


i=t 





























图 B-2: 一 个 信号 
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实际 的 学 习 会 使 用 批量 标签 ， 通 过 SGD 完成 。 梯 度 是 标准 的 均 方 误差 (MSE) ， 这 使 的 每 
次 返 代 的 TD 误差 最 小 化 。 


我 们 使 用 学 习 率 为 a 的 MSE 损失 函数 〈L2 损失 )， 并 且 应 用 SGD (批量 大 小 为 1)。 
Qi(5,,4,) € Qi(s,,9,)+ AIR, —Q.(s,,a,)] 
(5s a) 是 输入 ，Q,(s,,4)+a[R -Css,a)] 是 标签 (如 目标 )。 


即使 我 们 使 用 MSE， 公 式 中 也 没有 平方 ， 因 为 损失 随后 被 应 用 到 预期 输出 
QO. (sa) 和 标签 c[R 一 (Ga)] 的 差 上 。 











重复 多 次 ， 从 zt 取样 。 
Qi(s,9) Ei[R]=E,,.., [Dn] 
B-3 可 以 收敛 到 正确 的 期 望 值 。 


Tel 7 
Tt Qn 





Qt | rr 7 本 Te 
Qn 
Tn 
;< | 
a, 
Tet1 人 

















B-3: 多 个 信号 


因此 ， 现 在 我 们 可 以 设计 一 个 单纯 的 学 习 算 法 的 原型 (以 Scala 语言 编写 ， 但 是 不 了 解 
Scala 也 可 以 看 懂 代 码 )， 如 示例 B-1 所 示 。 


示例 B-1 用 Scala 编写 的 RL4J 原型 
// 一 个 随机 的 未 初始 化 的 神经 网 络 
val neuraLNet: NeuraLNet 
// 迭 代 ， 直 到 达到 最 大 训练 轮 数 
for (t <- (1 to MaxEpoch)) 
epoch() 























def epoch()= { 
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// 选 择 随机 的 状态 和 动作 
val state = randomState 
val action = randomAction(state) 


// 迁 移 到 新 状态 ， 初 始 化 奖励 


var (new_state, accuReward) = transitition(state, action) 


// 一 直 玩 到 结束 状态 ， 累 积 奖励 
accuReward += playRandomly(state) 





// 对 输入 和 标签 执行 SGD1 
fit((state, action), accuReward) 


} 
//MDP 专 用 ， 返 回 新 的 状态 以 及 奖励 


def transition(state: State, action: Action): (State, Double) 


// 从 所 有 状态 空间 中 返回 随机 的 样本 状态 


def randomState: State 


// 一 直 玩 到 结束 状态 
def pLayRandomLy(state): Double = { 
var s = state 
var accuReward = 0 
var k=0 
while (!s.isTerminal) { 
val action = randomAction(s) 
val (state, reward) = transition(s, action) 
accuReward += Math.pow(gamma, k) * reward 











Lo 


























k += 1 

s = state 
} 
accuReward 


} 
// 从 该 状态 所 有 可 用 动作 中 随机 选择 一 个 动作 


def randomAction(state: State): Action = 
oneOf(state.available_action) 


// 辅 助 函数 ， 挑 出 一 个 动作 
def oneOf(seq: Seq[Action]): Action = 
seq.get(Random.nextInt(seq.size)) 


// 如 何 用 DL4] 大 致 地 完成 训练 
def fit(input: (State, Action), label: Double) = 
neuralNet.fit(toTensor(input), toTensor(label)) 











// 从 ND4J 返 回 INDArray 
def toTensor(array: Array[_]): Tensor = 
Nd4j.create(array) 
这 段 代 码 存 在 多 个 问题 : 虽然 能 够 工作 ， 但 效率 非常 低 。 我 们 正在 玩 一 个 其 中 单个 标签 有 
n 个 状态 入 个 动作 的 完整 游戏 ， 而 且 这 个 标签 可 能 还 没有 意义 (如 果 感 兴趣 的 轨迹 很 难 
随机 到 达 ) 。 

















让 
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B.2.3 ”探索 与 开采 


随机 探索 ， 环 境 会 收敛 到 最 优 策 略 ， 但 这 只 有 在 几乎 无 限 的 时 间 之 后 才能 得 到 保证 : 你 将 
需要 访问 每 个 可 能 的 迁移 轨迹 至 少 一 次 (轨迹 是 在 一 个 情节 中 ， 所 有 访问 的 状态 和 选择 的 
行动 的 有 序列 表 )。 考 虑 到 状态 和 分 支 的 数量 ， 这 是 不 可 能 的 。 分 支 问 题 是 围棋 比 国际 象 
棋 更 难 的 原因 。 在 现实 世界 中 ， 我 们 没有 无 限 的 时 间 (时 间 就 是 金钱 )。 


因此 ， 我 们 应 该 利用 过 去 的 信息 和 我 们 对 它 的 学 习 ， 把 探索 集中 在 最 有 前 景 的 、 可 能 的 轨 
迹 上 。 可 以 通过 不 同 的 方法 达到 这 个 目的 ， 其 中 之 一 就 是 =- 贪 禁 探 索 算 法 ， 它 相当 简单 ， 
策略 是 以 s 的 概率 随机 执行 一 个 动作 ， 或 者 以 〈1-s) 的 概率 执行 当前 策略 认为 最 佳 的 动 
作 。 通 常 在 充分 探索 之 后 ， 随时 间 退 火 ， 使 得 相对 于 探索 ， 开 采 被 优先 使 用 ， 这 是 在 控 
索 与 开采 之 间 的 权衡 。 


随 着 每 一 条 新 信息 的 出 现 ， 实 际 的 Q 函数 对 于 当前 的 策略 变 得 更 加 精确 ， 探 索 的 重点 是 更 
好 的 路 径 。 基 于 新 的 Q 函数 的 策略 变 得 更 好 (因为 O 更 精确 )，2- 贪 禁 探 索 找到 更 好 的 路 
径 。Q 函数 以 这 些 更 好 的 路 径 为 核心 ， 可 以 探索 更 好 的 部 分 ， 而 且 必 须根 据 新 的 策略 更 新 
其 回报 。 如 图 B-4 所 示 ， 这 是 一 个 迭代 周期 ， 能 够 收敛 到 最 优 策 略 。 因 此 把 它 称 作 策略 选 
代 也 就 不 足 为 奇 了 。 遗 憾 的 是 ， 当 用 神经 网 络 有 逼近 0 时， 收敛 时 间 是 无 限 长 的 ， 其 至 不 能 
保证 收 化 。 然 而 ， 令 人 印象 深刻 的 结果 可 以 弥补 形式 收敛 证 明 的 不 足 。 

























































































__ -LLN 确 保 信号 有 意义 








5 得 度 pos 
Pl 以 奖励 的 形式 得 到 “ 
& 的 信号 中 的 结果 
4 
A 与 MDP 交 互 NN 通 过 基于 MSE 的 SGD ， 从 信和 号 来 逼近 Q 





学 习 。MSE 为 0 新 (s) 一 (QI 日 (s)+TD 误 差 ) 


4 \ 


工 一 2 贪 禁 国 数 (Q) Q 变 得 更 精确 ， 从 w.r.t 到 x 


贪 禁 函 数 (0) 选择 
| 更 好 的 动作 | 


用 循环 迭代 并 收敛 


BN 


x 和 


SR 














图 B-4: 策略 迭代 
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这 个 算法 还 要 求 你 以 “良好 ”的 方式 对 状态 采样 : 它 应 该 按 比 例 选 取 能 够 代表 通常 在 游戏 
中 的 状态 〈 或 者 至 少 是 目标 代理 级 别 的 游戏 类 型 ) 。 























B.2.4 贝尔 曼 方 程 

Q 方程 可 以 转化 为 贝尔 曼 方程 ， 如 下 所 示 : 
OQ.(s,a) = 巨 [7+77 t+.+y"r,|s,=5,a, =al] 
=E[n +yr +V(s,)|s, = 5,a, =a|= El +ryrnn + … +7y max ,0 (s,1,0") 
|s, =s,a, =al 

正如 在 蒙特 卡 洛 方法 中 ， 我 们 可 以 做 许多 0 的 更 新 。 

MSE : 


QO: (5,, 4) Or: (s,， a)+o n+max, O; (Sa a ) se 一 (2， )s,,a t 





TD—error 





TD 误差 是 上 时间差 误差 。 实 际 上 ， 我 们 正在 计算 0 近似 在 未 来 期 望 值 加 上 已 实现 的 奖励 与 
神经 网 络 所 评估 的 当前 值 之 间 的 差异 。 


贝尔 曼 方 程 仅 在 某 些 边界 条 件 下 才 有 意义 。 如 果 s 是 终止 状态 : 
Vs)=0 





对 于 任何 a: 





CGO)=7 
靠近 终止 状态 的 状态 首先 收敛 ， 因 为 它们 在 链 中 更 接近 “ 真 ” 标 签 ， 即 已 知 的 边界 条 件 。 
在 围棋 或 国际 象棋 中 ， 我 们 通过 将 +1 分 配给 导致 最 终 赢 棋 的 移动 (-1 代表 输 棋 ，0 代表 
其 他 ) 来 应 用 强化 学 习 。 它 通过 在 两 个 极 值 [-1; 1] 之 间 找 到 一 个 点 来 扩散 2 值 。2 值 接近 
0 的 移动 表示 会 平局 ，2 值 接近 1 的 移动 表示 几乎 会 胜利 。 


令 人 惊讶 的 是 ， 这 些 移动 不 仅 有 -1 和 1 值 (因为 偏离 最 佳 路 径 应 该 是 致命 的 )。 计 算 0 值 
时 的 有 趣 的 一 点 是 我 们 认识 到 在 许多 游戏 /MDP 中 ， 没 有 错误 本 身 就 是 致命 的 ， 正 是 它们 
的 积累 才 真正 杀 死 了 你 ，AI 充满 了 人 生 的 教训 。 此 外 ， 预 期 累积 的 奖励 空间 比 通常 想象 的 
要 平滑 得 多 。 一 种 可 行 的 解释 是 期 望 总 是 具有 平均 效应 : 期望 只 不 过 是 以 概率 为 权重 的 加 
权 平 均 。 此 外 ，y < 1 长 期 的 效果 并 不 占有 优势 。 能 够 直接 计算 每 个 移动 赢得 比赛 的 概率 难 
道 不 令 人 兴奋 吗 ? 

只 要 我 们 在 终止 状态 附近 对 足够 的 移动 采样 ，Q 学 习 就 能 够 收敛 。 深 度 强化 学 习 不 可 思议 
的 力量 在 于 它 能 够 将 其 学 习 从 访问 状态 泛 化 到 未 访问 状态 。 它 能 够 理解 什么 是 平局 或 获 
胜 ， 即 使 它 以 前 从 未 见 过 ， 这 是 因为 网 络 能 够 基于 先前 见 过 的 模式 来 抽象 模式 并 理解 动作 
的 强度 〈 例 如 在 识别 出 敌人 时 进行 射击 )。 
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离线 和 在 线 强 化 学 习 


要 了 解 更 多 在 线 和 离线 强化 学 习 之 间 的 差异 ， 可 参阅 Kofzor 写 的 好 文章 
(http://bit.ly/2tUyTNE ) 。 


B.2.5 初始 状态 采样 


在 单 人 游戏 环境 中 (如 Atari 游戏 )， 实 际 上 不 需要 学 习 在 每 种 情况 下 都 玩 得 很 好 (尽管 如 
果 做 到 了 ， 那 表明 已 经 达到 了 很 好 的 泛 化 水 平 )。 我 们 只 需要 学 会 从 策略 所 遇 到 的 状态 有 
效 地 发 挥 作用 即 可 。 因 此 可 以 从 初始 状态 开始 ， 在 当前 策略 可 到 达 的 状态 中 采样 ， 这 使 得 
我 们 能 够 直接 从 代理 玩 过 的 情节 中 取样 。 


B.2.6 _Q 学 习 的 实现 


在 这 个 阶段 ， 可 以 设计 一 个 简单 的 Q 学 习 原型 。 示 例 B-2 为 相关 代码 。 


示例 B-2 用 Scala 编写 的 Q 学 习 的 简单 原型 
def epoch()= { 











// 在 初始 状态 空间 中 取样 ( 常 为 唯一 的 状态 ) 
//(often unique state) 
var state = initState 








// 只 要 状态 不 是 终止 状态 ， 就 重复 玩 一 个 情节 ， 并 在 每 次 迁移 时 执行 更 新 


while(!state.isTerminal) { 


// 基 于 e- 贪 禁 策 略 对 动作 取样 


val action = epsilonGreedyAction(state) 








// 与 环境 交互 


val (nextState, reward) = transition(state, action) 


//Q 更 新 


update(state, action, reward, nextState) 
state = nextState 

} 

// 如 上 面 解 释 的 更 新 的 实现 


def update(state: State, action: Action, reward: Double, nextState: State)= { 
val target = reward + maxQ(nextState) 
fit((state, action), target) 


} 


//s- 贪 桂 策 略 的 实现 
def epsilonGreedyAction(state: State) = { 
if (Random.float() < epsilon) 
randomAction(state) 
else 
maxQAction(state) 
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} 


// 获 取 最 大 的 Q 值 
def maxQ(state: State) = 
actionsWithQ(state).maxBy(_ . 2). 2 


// 获 取 最 大 Q 值 的 动作 
def maxQAction(state: State) = 
actionsWithQ(state).maxBy(_._2)._1 











// 返 回 从 某 个 状态 开始 的 动作 列表 和 迁移 的 Q 值 

def actionsWithQ(state: State) = { 
val stateActionList = available actions.map(action => (state, action)) 
available_actions.zip(neural_net.output(toTensor(state _action_list))) 








def initState: State 


B.2.7 对 Q(s,a) 建 模 

a 不 作为 带 有 状态 的 神经 网 络 的 附加 输入 ， 状 态 是 唯一 包含 每 个 可 能 动作 的 0 值 的 输入 和 
输出 ， 这 只 有 在 整个 情节 中 可 用 动作 一 致 时 才 有 意义 (否则 ， 神 经 网 络 输出 层 的 每 个 状态 
都 得 不 同 )。 多 数 情况 下 ， 通 过 以 动作 全 集 4 为 输出 并 忽略 不 可 能 的 动作 可 以 解决 这 个 问 
题 (一 些 论文 将 不 可 能 的 动作 的 目标 设 为 0)。 


B.2.8 经验 回放 

以 神经 网 络 为 Q 逼近 器 有 一 个 问题 : 迁移 是 非常 相关 的 ， 这 减少 了 迁移 的 总 体 方差 ， 毕 竟 
它们 都 是 从 同一 个 情节 中 提取 出 来 的 。 想 象 一 下 ， 如 果 必 须 学 习 一 个 没有 任何 记忆 的 任务 
(甚至 不 是 短期 的 ) ， 你 总 是 会 根据 上 一 个 情节 来 优化 学 习 。 

谷歌 的 DeepMind 研究 团队 使 用 了 经 验 回放 ， 它 指 DQN 中 最 后 YX 个 迁移 ( 原 论文 中 V 为 
100 万 ) 的 窗口 缓冲 区 ， 并 极 大 地 提高 了 它们 在 Atari 上 的 表现 。 不 要 从 上 一 个 迁移 进行 更 
新 ， 而 应 将 它 存 储 在 经 验 回 放 中 ， 并 从 来 自 同 一 经 验 回放 的 一 批 随机 采样 的 迁移 进行 更 新 。 
epoch() 变 为 : 


def epoch() = { 












































// 在 初始 状态 空间 中 取样 ( 常 为 唯一 的 状态 ) 
//(often unique state) 
var state = initState 





























// 只 要 状态 不 是 终止 状态 ， 就 重复 玩 一 个 情节 ， 并 在 每 次 迁移 时 执行 更 新 


while(!state.isTerminal) { 








// 基 于 s- 贪 材 策 略 对 动作 取样 


val action = epsilonGreedyAction(state) 





// 与 环境 交互 


val (nextState, reward) = transition(state, action) 
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// 存 储 迁移 (经 验 回放 只 不 过 是 环形 缓冲 ) 


expReplay.store(state, action, reward, nextState) 


// 批 量 中 的 Q 更 新 
UpdateFromBatch(expRepLay .getBatch()) 





state = nextState 
} 
} 


压缩 
DL4J 的 张 量 库 ND4J 不 支持 uint8 作为 一 等 类 别 ， 然 而 灰 度 中 的 像素 以 这 个 精度 进行 编码 。 
为 了 避免 浪费 太 多 内 存 空 间 ，INDArray 会 被 压缩 为 uint8 。 


B.2.9 卷 积 层 与 图 像 预 处理 

卷 积 层 擅 长 检测 图 像 中 的 局 部 模式 。 对 于 像素 ， 它 被 用 作 减 少 输 入 到 其 真实 流 形 的 维度 所 
需 的 处 理 器 。 考 虑 到 适当 的 流 形 观测 数据 ， 决 策 变 得 容易 得 多 。 

图 像 处 理 

可 以 直接 向 神经 网 络 提供 RGB ， 但 是 网 络 也 必须 学 习 该 附加 模式 。 看 来 大 脑 天 生 就 能 组 合 
颜色 (很 幸运 ! )， 因 此 容忍 预 处 理 似乎 是 合理 的 。 

B-5 展示 了 你 所 看 到 的 。 
































B-5: Doom 游戏 的 截图 
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图 B-6 显示 了 神经 网 络 所 看 到 的 。 














图 B-6: 来 自 同一 屏幕 截图 的 神经 网 络 的 输入 





图 像 的 大 小 被 调整 为 84 x 84。 随 着 输入 大 小 的 增加 ， 对 内 存 和 卷 积 层 计算 的 需求 也 随 之 增 
加 。 对 于 正确 地 玩 游戏 来 说 ， 图 像 精微 的 细 市 不 是 必要 的 。 事实 上 ， 许 多 细 方 纯粹 是 审美 
需求 ， 调 整 到 更 合理 的 尺寸 会 加 快 训练 速度 。 


跳 帆 
在 最 初 的 Atari 论文 中 ， 四 帧 中 只 有 一 帧 是 被 实际 处 理 的 。 对 于 剩余 三 个 图 
像 ， 重 复 最 后 一 个 动作 。 它 在 不 丢失 太 多 信息 的 情况 下 ， 使 训练 速度 提高 了 


大 约 四 倍 。 实 际 上 ，Atari 游戏 不 需要 完美 地 处 理 每 一 帧 ， 对 于 大 多 数 动 作 来 
说 ， 保 持 至 少 四 帧 更 有 意义 。 

















B.2.10 ”历史 处 理 


为 了 向 神经 网 络 提供 关于 当前 动量 的 信息 ， 最 后 四 帧 〈 使 用 跳 帧 技巧 ， 每 四 帧 中 选择 一 
个 ) 被 堆 秋 成 四 个 通道 ， 如 图 B-7 所 示 。 这 四 帧 代表 一 个 历史 ， 如 B.1.2 节 中 讨论 的 。 
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跳 过 的 帧 〈 跳 帧 的 模 =4) 





历史 处 理 器 
(历史 长 度 =4) 


t+1 

















图 B-7: 历史 处 理 与 堆 鞠 
为 了 填充 历史 中 的 第 一 批 帧 ， 使 用 随机 策略 或 noop 回放 。 


B.2.11 双 Q 学 习 


双 DQN 背后 的 思想 是 每 M 次 更 新 ( 硬 更 新 ) 或 每 次 平 请 平均 (target = target x (smooth) + 
current x (1-smooth)) 更 新 ( 软 更 新 ) 都 会 冻结 网 络 。 的 确 ， 它 通过 在 TD 误差 公式 中 使 用 
不 容易 “和 弄 坏 ”的 2 评估 来 增加 学 习 的 稳定 性 。O 更 新 公式 变 为 如 下 所 示 : 





互 





Fas = 1 + 7 * (Quear (suarg max, Qs, +1, 0))) 


B.2.12 ”裁剪 


你 可 以 裁剪 TD 误差 (将 甚 绑 定 在 两 个 限制 值 之 间 )， 这 样 任何 离 群 值 更 新 都 不 会 对 学 习 产 
生 太 大 的 影响 。 


B.2.13 缩放 奖励 


缩放 奖励 使 2 值 较 低 〈 在 [-1; 1] 范围 内 类 似 于 规范 化 ) ， 这 样 可 以 显著 改变 学 习 效 率 。 这 
是 一 个 不 容 忽视 的 重要 超 参数 。 


B.2.14 优先 回放 

优先 回放 背后 的 思想 是 ， 并 非 所 有 的 迁移 都 是 平等 的 ， 有 些 迁 移 更 重要 。 对 它们 排序 的 一 
种 方法 是 通过 它们 的 TD 误差 。 的 确 ， 高 TD 误差 与 高 级 别 的 信息 相关 ( 令 人 惊讶 )。 相 比 
其 他 样本 ， 应 该 更 频繁 地 对 这 些 迁 移 取 样 。 























注 1: 为 了 评估 公平 ， 可 以 使 用 随机 的 开始 状态 。 
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B.3 图形、 可视化 和 Q 均 值 

















为 了 可 视 化 和 调试 强化 学 习 的 训练 或 方法 ， 对 代理 


的 进展 进行 可 视 化 监控 很 有 用 。 这 就 是 




















为 什么 我 们 构建 了 仪表 板 webapp-H4j ( 见 图 


B-8, https://github.conm/rubenfiszel/webapp-rl4j ) 。 
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图 B-8: webapp-rl4j 的 屏幕 截图 
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最 重要 的 事情 是 跟踪 累积 奖励 ， 如 图 B-9 所 示 。 这 是 一 种 有 效 地 检查 代理 是 否 变 得 更 好 的 
方法 。 需 要 重点 注意 的 是 ， 它 代表 e- 贪 禁 策 略 ， 而 不 是 直接 从 2 逼近 衍生 的 策略 。 


























国 cum_reward 国 mva10_cumreward 转 length 图 mva10_length 














B-9: 累积 奖励 图 
你 可 能 还 想 跟 踪 损 失 (神经 网 络 的 得 分 ) 和 2 均值， 如 图 B-10 所 示 。 
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B-10: 得 分 和 Q 均值 图 
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与 传统 的 监督 学 习 不 同 ， 损 失 并 不 一 定 总 是 减少 ， 因 为 学 习 会 影响 标签 ! 


如 果 用 于 目标 网 络 ， 你 应 该 看 到 来 自 不 同 目标 网 络 的 非 连续 评估 中 的 一 些 不 连续 性 。 损 失 
应 该 相对 于 单个 目标 网 络 减少 ，2 均值 应 该 平 请 地 收敛 到 与 平均 期 望 奖 励 成 比例 的 值 。 


B.4 RL4J 


可 以 从 GitHub (https://github.com/deeplearning4j/r14j) 上 获取 RL4J。 目 前 它 实 现 了 DQN 
与 经 验 回放 双 Q 学 习 和 裁剪 ”, 它 还 包括 了 带 有 A3C 的 异步 强化 学 习 和 异步 N 步 Q 学 习 。 
这 使 得 我 们 可 以 同时 从 像素 或 低 维 问题 (如 Cartpole 游戏 ) 开始 。 异 步 强化 学 习 是 实验 性 
的 ， 希望 大 家 贡献 代码 以 丰富 这 个 库 。 


示例 B-3 给 出 了 一 个 使 用 RL4 中 简单 的 DQN 来 玩 Cartpole 游戏 的 代码 示例 ， 你 也 可 以 玩 
Doom 游戏 。GitHub 上 的 rl4j-examples (https://github.com/rubenfiszel/rl4j-examples) 包含 
了 更 多 的 例子 ， 你 也 可 以 提供 自己 构造 的 神经 网 络 模型 来 试验 任何 训练 方法 。 


示例 B-3 使 用 Scala 开发 的 基本 RL4J 的 代码 示例 
public static QLearning.QLConfiguration CARTPOLE QL = 
new QLearning.QLConfiguration( 

123，// 随 机 种 子 
200，// 每 轮 的 最 大 步骤 数 
150000，// 最 大 步骤 数 
150000，// 经 验 回放 的 最 大 大 小 
32，// 批 量 的 大 小 
500，// 目 标 更 新 〈 硬 更 新 ) 
10，//noop 热 身 步 又 数 
0.01，// 奖 励 缩 放 
0.99， //y 
1.0，//TD 误 差 裁剪 
0.1f，// 最 小 
1000，//s 贪 禁 退 火 的 步骤 数 
true // 双 DQN 























) ; 


public static DQNFactoryStdDense.Configuration CARTPOLE_NET = 
new DQNFactoryStdDense.Configuration( 
3，// 层 数 
16，// 隐 藏 节点 数 
0.001，// 学 习 率 
909.90 //L2 规 范 化 
); 


public static void main( String[] args ) 


{ 
// 在 新 文件 夹 中 记录 r14j-data 的 训练 数据 (保存 ) 


DataManager manager = new DataManager(true); 








注 2: 更 多 详细 信息 ， 请 参阅 博客 原文 : https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning- 
and-DQN.html。 
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// 从 gym(name，render) 定 义 mdp 
GymEnv<Box, Integer, DiscreteSpace> mdp = new GymEnv("CartPole-vO", false, 
false); 


// 定 义 训练 
QLearningDiscreteDense<Box> dql = new QLearningDiscreteDense(mdp, 
CARTPOLE_NET, CARTPOLE_ QL, manager); 


// 训 练 
dql.train(); 


// 获 取 最 终 策 略 
DQNPolicy<Box> pol = dql.getPolicy(); 


// 序 列 化 并 保存 (序列 化 展示 ， 但 非 必需 ) 
pol.save("/tmp/pol1"); 


// 关 闭 mdp (关闭 http) 
mdp.close(); 


B.5 小 结 


这 是 一 段 令 人 兴奋 的 深度 强化 学 习 的 旅程 。 从 方程 到 代码 ，Q 学 习 都 是 一 个 强大 而 相对 简 
单 的 算法 。 强 化 学 习 领 域 非常 活跃 且 有 前 景 。 事实 上 ， 可 以 把 监督 学 习 看 作 强 化 学 习 的 一 
个 子 集 (通过 设置 标签 作为 奖励 )。 也 许 有 一 天 ， 强 化 学 习 将 成 为 人 工 智 能 的 灵丹妙药 。 
在 那 之 前 ， 我 们 可 以 期 待 它 的 多 样 化 应 用 出 现在 越 来 越 多 的 令 人 印象 识 刻 的 问题 上 。 最 后 
我 要 感谢 Skymind 公司 及 其 优秀 的 团队 ， 感 谢 这 次 丰富 多 彩 的 实习 。 
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附录 C 





每 个 人 都 需要 了 解 的 数字 


表 C-1 列 出 了 读者 需要 了 解 的 数字 ， 也 称 “Jeff Dean 的 12 个 数字 ”。 

















表 C-1: Jeff Dean 的 12 个 数字 

计算 机 架构 操作 持续 时 间 〈 纳 秒 ) 
读 取 Ll 缓存 数据 0.5 

分 支 误 预测 5 

读 取 L2 缓存 数据 7 

互 斥 锁 / 解锁 100 

读 取 主 内 存 数据 100 

使 用 Zippy 算法 压缩 IKB 数据 10 000 

在 1Gbps 的 网 络 上 发 送 2KB 数据 20 000 

从 内 存 顺序 读 取 1MB 数据 250 000 
在 同一 个 数据 中 心 往返 500 000 
磁盘 搜索 10 000 000 
从 网 络 顺序 读 取 1MB 数据 10 000 000 
从 磁盘 顺序 读 取 1MB 数据 30 000 000 
从 加 州 一 荷兰 一 加 州 发 送 数 据 包 150 000 000 
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附录 DD 


神经 网 络 和 反 向 传播 ， 数 学 方法 





作者 : Alex Black 


D.1 介绍 

本 附录 将 研究 支撑 神经 网 络 训练 的 数学 基础 : 反 向 传播 算法 。 但 在 深入 研究 之 前 ， 先 来 思 
考 一 个 问题 :在 训练 神经 网 络 时 ， 我 们 想 做 的 是 什么 ? 

( 先 不 讨论 过 拟 合 等 问题 ) 核心 问题 是 ， 我 们 希望 在 训练 过 程 中 调整 神经 网 络 的 参数 ( 基 
于 训练 数据 )， 使 网 络 能 够 准确 预测 。 这 里 的 两 个 关键 词 是 准确 的 预测 和 调整 参数 。 


暂时 考虑 一 下 分 类 的 任务 ， 对 于 该 任务 ， 给 定 一 些 输入 数据 ， 要 求 神经 网 络 预测 示例 的 类 
别 。 量 化 分 类 预测 的 好 坏 程 度 有 很 多 不 同 的 方法 : 准确 度 、F1 评分 、 负 对 数 似 然 等 。 所 有 
这 些 都 是 有 效 的 度量 ,但 是 其 中 一 些 更 难 优化 。 比 如 对 网 络 中 的 任何 给 定 参 数 进行 微小 改 
动 ， 网 络 的 准确 度 可 能 不 会 改变 。 因 此 ， 使 用 基于 梯度 的 方法 直接 优化 准确 度 是 不 可 能 的 
( 即 “ 准 确 度 ”是 不 可 微 的 )。 

相反 ， 当 我 们 改变 参数 值 时 ， 即 使 是 微小 的 更 改 ， 其 他 的 度量 都 将 增加 或 减少 ， 如 人 负 对 数 
可 能 性 。 如 果 我 们 限制 自己 用 可 微 类 型 的 损失 函数 (如 负 对 数 似 然 ， 来 量化 网 络 预 测 的 质 
量 ， 并 应 用 一 些微 积分 ， 就 会 得 到 一 个 简单 而 优雅 的 神经 网 络 训练 算法 。 

反 向 传播 算法 背后 的 关键 思想 很 简单 。 
。 基于 可 微 损 失 函 数量 化 网 络 当 前 预测 的 好 坏 程 度 。 

。 通过 将 多 变量 微 积分 的 规则 应 用 于 损失 函数 和 网 络 结构 ,来 计算 网 络 中 每 个 参数 的 梯度 。 
。 使 用 计算 出 的 梯度 ， 在 使 该 损失 函数 最 小 化 的 方向 上 迭代 地 调整 网 络 参 数 。 


以 算法 形式 对 SGD 算法 的 说 明 如 下 所 示 : 
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输入 ;网 络 参数 w， 损 失 函 数 工 训练 数据 D， 学 习 率 a>0 
while 未 满足 终止 条 件 do 
(features, labels) ~ D.getRandomMiniBatch() 


out 一 getNetworkOutput(w, features) 


OL 
— calculateParameterGradients(w, L, out, labels) 
QW 6 


WTwW- Qo 


end 





OL 
这 里 的 核心 部 分 是 计算 偏 导数 3。 如 果 你 不 熟悉 偏 导数 ， 可 以 把 它们 看 作 描 述 兴趣 量 损 


失 国 数 工 的 值 ) 如 何 随 函数 其 他 量 (权重 向 量 w 中 每 个 参数 w 的 值 ) 的 变化 而 变化 ( 假 
设 保持 其 他 所 有 值 不 变 )。 


步 大 小 

















在 大 多 数 情况 下 ， 字 也 是 w 的 函数 ， 这 就 是 为 什么 ， (1) 我 们 只 需 少数 几 步 
(即使 用 较 小 的 学 习 率 a) ; (2) 必须 在 修改 每 次 迭代 的 参数 值 之 后 重新 计算 
梯度 。 





oL 
如 果 二 是正 数 ， 少 量 增 加 w; 会 使 当前 样本 的 损失 工 增加 ， 减 少 wi 会 减少 损失 函数 的 值 。 


本 质 上 ， 这 就 是 反 向 传播 算法 的 全 部 内 容 :定义 一 个 损失 函数 ， 计 算 损失 函数 对 所 有 参数 
的 导数 ， 并 使 损失 函数 朝 最 小 化 的 方向 迈 出 一 小 步 。 这 是 一 个 简单 但 非常 强大 的 想法 ， 实 
际 上 它 是 所 有 深度 学 习 的 基础 。 


D.2 多 层 感知 器 中 的 反问 传播 


文字 介绍 得 差不多 了 ， 下 面 转 到 数学 表达 式 。 以 一 个 简单 的 多 层 感 知 器 为 例 ， 即 标准 的 全 
连接 前 馈 神经 网 络 层 ， 或 DL4J 中 的 “密集 层 " ， 它 的 平方 误差 损失 函数 之 和 (DL4J 中 的 
L2 损失 函数 ) 的 表达 式 如 下 所 示 : 


L(y,9?)= 2 (y, 一 分 ) 
其 中 X 是 输出 的 数量 ,六 是 第 :z 个 标签 ， 红 output(w, 7) 是 在 给 定 特征 向 量 f 和 当前 参数 w 
的 情况 下 ， 网 络 对 y; 的 预测 。 
图 D-1 展示 的 是 单 层 神经 网 络 。 当 你 读 到 本 附录 剩余 部 分 数学 方面 的 内 容 时 ， 也 可 以 参考 


这 张 图 。 
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D-1: 单 层 神经 网 络 


如 果 当 前 层 的 输入 向 量 是 向 量 a (长 度 为 4)、 元 素 相关 的 非 线性 函数 (激活 函数 ， 例 如 
tanh 或 ReLU) 为 oa， 则 该 网 络 的 前 向 传递 方程 是 : 

















z=b, + wa, 
$=0(2,) 

其 中 5b; 是 偏 置 ， 而 wi; 是 连接 输入 j 和 神经 元 i 的 权重 。 

给 定 损 失 函 数 ， 我 们 要 计算 的 一 阶 偏 导数 是 关于 网 络 输出 的 : 


OL -三 | y -站 
太太 2% (一 人 




















随 着 与 网 络 结构 相反 的 方向 ， 接 下 来 要 计算 ~ 作为 的 函数 ， 这 将 取决 于 激活 函数 o(z) 
z, 


的 数学 形式 。 为 了 简单 起 见 ， 我 们 假定 一 个 简单 的 激活 函数 ， 如 sigmoid、tanh 或 ReLU 
(因为 它们 的 导数 是 简单 的 元 素 相关 的 函数 ， 但 是 一 些 函 数 如 softmax 则 没有 这 个 特性 )。 


OL 6L 0%, 


Oz, Op, Oz, 


,,_、OL 
=0°(2,) 到 


例如 在 使 用 sigmoid 激活 函数 时 ，o(z) = 一 二 导数 oz)=o(2)(-o(z)) 。 











接 下 来 根据 给 定 的 先前 计算 的 导数 ， 我 们 应 用 链 式 法 则 计算 权重 w 的 偏 导 数 : 
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oL 61 


可 以 用 同样 的 方法 来 确定 偏 轩 的 导数 ， 表 过 式 为 ， 这- 到 。 





最 后 计算 输入 激活 值 w 的 损失 函数 的 导数 ， 再 次 根据 给 6 定 的 


OL eA 


Oa; pz Oa; 





这 样 就 行 了 。 如 果 下 本 


j 还 有 一 层 ， 可 以 采用 完全 相同 的 方法 ， 但 是 要 用 了 。 








与 网 络 结构 相反 的 方向 
将 这 个 分 析 扩展 到 小 批量 





度 ， 而 不 是 平均 每 个 小 批量 的 样本 。 实 际 上 ， 
向 量 运算 实现 的 。 此 外 ， 





和 CNN。 


应 用 链 式 规则 。 


我 们 只 是 随 着 


( 即 多 个 样本 ) 的 情况 非常 简单 : 可 以 简单 地 平均 每 个 参数 的 梯 





这 些 方程 是 在 小 批量 数据 上 使 用 矩阵 乘法 和 














可 以 使 用 相同 的 方法 计算 其 


他 (更 复杂 的 ) 模型 的 导数 ， 如 RNN 
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附录 EE 
使 用 ND4J AP| 





ND4 是 在 JVM 上 运行 的 一 个 科学 计算 库 。 它 被 设计 为 能 够 在 生产 环境 中 快速 运行 ， 其 主 
要 特点 如 下 所 示 : 

多 用 途 n 维 数组 对 象 ， 

支持 包括 GPU 在 内 的 多 平台 ; 

线性 代数 和 信号 处 理 功 能 。 

















ND4S 是 ND4J 的 Scala 版 本 。 


可 用 性 的 瀣 沟 使 Java、Scala 和 Clojure 程序 员 与 数据 分 析 领 域 最 强大 的 工具 ， 比 如 NumPy 
或 Matlab 绝缘 。 像 Breeze 这 样 的 库 不 支持 n 维 数组 或 张 量 ， 而 这 些 对 于 深度 学 习 和 其 他 
任务 是 必需 的 。ND4J 和 ND4S 被 美国 国家 实验 室 用 于 气候 建 模 等 任务 ， 这 些 任务 需要 计 
算 密 集 的 模拟 。 

ND4J 将 Python 社区 直观 的 科学 计算 工具 带 到 了 JVM 世界 ， 它 开源 、 分 布 式 ， 并 且 支 持 
GPU 库 ， 结 构 类 似 于 SLF4J。ND4J 为 工程 师 们 提供 了 一 种 简单 的 方法 来 移植 他 们 的 算法 ， 
以 及 与 Java 和 Scala 生态 系统 中 其 他 库 的 接口 到 生产 环境 。 


完整 的 在 线 ND4J 用 户 指南 
ND4J 支持 的 操作 不 限于 本 附录 中 所 列 出 的 。 访 问 http:/nd4j.org/userguide 查 
完整 的 ND4J 用 户 指 南 。 
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完整 的 ND4J API Javadoc 
访问 http:/nd4j.org/doc 中 的 Javadoc 查看 完整 的 ND4JAPI 资源 。 





E.1 设计 与 基本 用 法 
ND4J 被 设计 为 可 在 许多 环境 中 和 运行， 并 与 如 今 的 现代 数据 系统 集成 。 以 下 是 它 的 一 些 
特点 。 


通过 CUDA 支持 GPU。 
与 Hadoop 和 Spark 的 集成 。 
。 模仿 NumPy 的 语法 设计 的 API。 


ND4J 中 的 大 多 数 操作 都 专注 于 处 理 数字 数组 ， 基 核心 数据 结构 被 称 为 NDArray。 


E.1.1 理解 NDArray 

NDArray 本 质 上 是 一 个 具有 一 定 维 度 的 矩形 数组 。 可 以 通过 以 下 属 | 
。 秩 

。 形状 

。 长 度 

。 步 长 

。 数据 类 型 

接 下 来 解释 其 中 每 个 属性 对 于 NDArray 的 作用 。 

NDArray 与 INDArray 

我 们 使 用 NDArray 这 个 术语 来 代表 一 个 维 数组 的 一 般 概念 。 术 语 INDArray 
有 具体 指 由 ND4J 定义 的 Java 接口 ， 在 实践 中 这 两 个 术语 可 以 互 换 使 用 。 





-EE 





生 量化 NDArray。 























口 秩 
NDArray 的 秩 是 维度 的 数量 。 二 维 NDArray 的 秩 为 2， 三 维 数组 的 秩 为 3， 以 此 类 推 。 
可 以 创建 任意 秩 的 NDArray。 

口 形状 
NDArray 的 形状 定义 了 每 个 维度 的 大 小 。 假 设 有 一 个 3 行 5 列 的 二 维 数组 ， 那 么 这 个 
NDArray 的 形状 为 [3, 5]。 








口 长 度 
NDArray 的 长 度 定义 了 数组 中 元 素 的 总 数 。 长 度 总 是 等 于 构成 形状 的 值 的 乘积 。 
口 步 长 


NDArray 的 步 长 指 每 个 维度 中 相 邻 元 素 的 间隔 〈 在 底层 数据 缓冲 区 中 )。 步 长 是 在 每 个 
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维度 分 别 定义 的 ， 所 以 秩 为 N 的 NDArray 具有 NN 个 步 长 值 ， 每 个 维度 一 个 。 请 注意 ， 


大 多 数 时 候 ， 你 不 需要 知道 (或 者 关心 ) 步 长 
方式 即 可 。 下 一 节 有 一 个 关于 步 长 的 例子 。 


口 数据 类 型 








你 只 需要 知道 这 是 ND4J 内 部 的 操作 


NDArray 的 数据 类 型 指 它 所 包含 的 数据 的 类 型 (例如 浮 点 或 双 精 度 )。 注 意 ， 在 ND4J 
中 这 个 值 是 全 局 设置 的 ， 因 此 所 有 NDArray 的 数据 类 型 都 相同 。 本 文 稍 后 将 讨论 数据 


类 型 的 设置 。 
需要 了 解 的 关于 NDArray 索引 和 维度 的 事情 





行 的 维度 为 0， 列 的 维度 为 1， 因此，INDArray.size(9) 是 行 数 ，INDArray. 
size(1) 是 列 数 。 与 大 多 数 编程 语言 中 的 普通 数组 一 样 ， 索 引 是 从 0 开始 的 ， 

















因此 行 的 索引 范围 为 到 INDArray.size(0)-1， 其 他 维度 也 是 一 样 。 











NDArray 与 物理 内 存 存储 


素 的 问题 ) 。 





NDArray 作为 一 个 单一 扁平 的 数字 数组 (或 者 通常 作为 单个 连续 的 内 存 块 ) 存储 在 内 
存 中 ， 因 此 与 传统 的 Java 多 维 数组 有 很 大 的 不 同 ， 如 float[][] 或 double[][]。 

在 物理 上 ，INDArray 底层 的 数据 是 堆 外 存储 的 ， 即 它 存储 在 JVM 之 外 。 这 样 做 有 许 
多 好 处 ， 包 括 性 能 、 与 高 性 能 BLAS 订 的 互 操作 性 ， 以 及 能 够 避免 JVM 在 高 性 能 计算 
中 的 某 些 缺点 (例如 Java 数组 由 于 整数 索引 的 上 限 而 被 限制 为 224-1 (21.4 亿 ) 个 元 








E.1.2 ND4J 一 般 的 语法 
ND4J 中 使 用 的 操作 有 三 种 : 





大 多 数 操作 只 接受 枚 举 值 ， 或 者 可 以 自动 完成 的 离散 值 列表 。 标 量 
的 模式 ， 下 面 分 别 了 解 它们 。 


口 标量 




















、 转 换 和 累积 都 有 各 自 


标量 只 接受 两 个 参数 : 输入 和 要 应 用 于 该 输入 的 标量 。 例 如 ScalarAdd() 接受 两 个 参 
数 : 输入 INDArray x 和 标量 Number num， 即 ScalarAdd(INDArray x，Number num)。 同 





样 的 格式 适用 于 每 个 标量 操作 。 
口 转换 


转换 是 最 简单 的 ， 因 为 它们 接受 单个 参数 并 对 其 执行 操作 。 绝 对 值 

















是 接受 参数 x (如 


abs(IComplexNDArray ndarray)) 并 产生 结果 的 转换 ， 该 结果 为 x 的 绝对 值 。 类 似 地 ， 


可 以 应 用 sigmoid 转换 函数 sigmoid()， 以 产生 “x 的 sigmoid”。 
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口 累积 
最 后 还 有 累积 操作 ， 也 就 是 GPU 上 下 文中 的 降 维 。 累 积 将 数组 和 向 量 彼 此 相 加 ， 并 且 
可 以 通过 行 操作 将 它们 的 元 素 相 加 ， 来 降低 结果 中 那些 数组 的 维度 。 例 如 对 以 下 数组 执 
行 累积 : 


[1 2 
3 4] 


所 得 向 量 如 下 所 示 : 


[3 
7] 


这 将 列 〈 即 维度 ) 从 两 个 减少 到 一 个 。 

累加 可 以 是 成 对 的 ， 也 可 以 降 维 为 标量 。 在 成 对 降 维 中 ， 可 能 要 处 理 两 个 形状 相同 的 数 
组 : x 和 y。 在 这 种 情况 下 ， 可 以 通过 两 个 两 个 地 取 x 和 y 的 元 素 ， 来 计算 它们 的 余弦 相 
似 度 。 


cosineSim(x[i], y[i]) 


或 者 ， 计 算 EuclideanDistance(arr，arr2)， 得 到 一 个 数组 arr 和 另 一 个 数组 arr2 之 间 的 
降 维 值 。 


E.1.3 使 用 NDArray 的 基础 知识 


1. ND4J 类 

这 个 类 有 各 种 静态 帮助 方法 来 协助 创建 NDArray。 下 面 将 讨论 NDArray 一 些 更 常用 的 
方法 。 
Nd4j.zeros(int...)。 数 组 的 形状 被 指定 为 整数 ， 例 如 创建 一 个 包含 3 行 和 5 列 的 零 填 充 
数组 ， 使 用 Nd4j.zeros(3,5)。 

Nd4j.ones(int...)。 此 方法 与 .zeros(int...) 类 似 ， 但 是 用 1 而 不 是 0 填充 返回 的 NDarray。 


用 其 他 值 初始 化 。 可 以 将 ND4J 类 方法 与 其 他 操作 相 结合 ， 创 建 具有 其 他 值 的 数组 。 例 如 
要 创建 一 个 用 10 填充 的 数组 ， 可 以 这 样 做 : 


INDArray tens = Nd4j.zeros(3,5).addi(10) 
这 个 初始 化 过 程 分 为 两 步 : 首先 分 配 一 个 零 填 充 的 3 x 5 数组 ， 然 后 每 个 值 加 10。 
用 随机 数 初始 化 。ND4J 提供 了 几 种 生成 元 素 值 为 伪 随 机 数 的 INDArray 的 方法 。 
要 产生 在 0 至 1 范围 内 的 均匀 随机 数 ， 使 用 ， 

Nd4j.rand(int nRows, int nCols) 
(生成 二 维 数组 )， 或 : 

Nd4j.rand(int[]) 


(生成 三 维 或 更 高 维度 )。 
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类 似 地 ， 生 成 平均 值 为 零 和 标准 差 为 1 的 高 斯 随机 数 ， 可 以 使 用 : 
Nd4j.randn(int nRows, int nCols) 
或 
Nd4j.randn(int[]) 
考虑 到 重复 性 ( 即 ， 设 置 ND4J 的 随机 数 生成 器 种 子 ) ， 可 以 这 样 做 : 
Nd4j .getRandom() .setSeed(Long) 
2. 控制 NDArray 的 形状 
接 下 来 的 小 节 讨 论 在 执行 基本 操作 的 过 程 中 如 何 控制 NDArray 的 形状 。 
3. 创建 基本 数组 
下 面 的 示例 创建 了 一 个 具有 两 列 的 一 维 数组 ， 列 的 值 为 {1, 2} 。 
INDArray nd = Nd4j.create(new float[]{1,2},new int[]{2}); // 向 量 行 
示例 : 创建 2X2ND Array。 下 面 的 示例 创建 了 一 个 有 两 行 和 两 列 的 二 维 NDArray。 第 一 
行 的 值 为 {1, 2}， 第 二 行 的 值 为 {3, 4}。 


INDArray arr1 = Nd4j.create(new float[]{1,2,3,4},new int[]{2,2}); 
System.out.println(arr1); 


输出 如 下 所 示 : 


[[1.0 ,3.0] 
[2.0 ,4.0] 
] 





7 














注意 ND4J 中 行 和 列 的 排列 

可 以 以 C (行为 主 序 ) 或 Fortran ( 列 为 主 序 ) 的 序列 方式 对 NDArray 编 
码 。 有 关 行 与 列 为 主 序 的 详细 信息 ， 请 参阅 https://en.wikipedia.org/wiki/Row- 
major_order。 

ND4J 可 以 同时 使 用 C 和 Fortran 数组 序列 方式 的 组 合 。 大 多 数 用 户 可 以 只 使 
用 默认 的 数组 序列 ， 但 是 请 广 意 ， 如 果 需 要 ， 可 以 对 给 定 的 数组 使 用 特定 的 
序列 方式 。 
































示例 : 将 两 个 2X2ND Array 相 加 。 创 建 第 二 个 数组 (arr2) 并 将 其 加 到 第 一 个 数组 (arr1)。 


INDArray arr2 = ND4j.create(new float[]{5,6,7,8},new int[]{2,2}); 
arr1.addi(arr2); 
System.out.printLn(arr1); 


输出 如 下 所 示 : 


[[7.0 ,11.0] 
[9.0 ,13.0]] 
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4. 从 Java 数 组 创建 NDArray 

ND4J 为 从 Java 的 float 和 double 数组 创建 NDArray 提供 了 方便 的 方法 。 
要 从 一 维 Java 数组 创建 一 维 NDArray， 方 法 如 下 所 示 。 

。 行 向 量 : Nd4j.create(fLoat[]) 或 Nd4j.create(double[]) 


。 列 向 量 : Nd4j.create(fLoat[] ,new int[]{fLength,1}) 或 Nd4j.create(doubLe[] ,new int[] 


{length,1}) 
对 于 二 维 数组 ， 使 用 Nd4j.create(float[][]) 或 Nd4j.create(double[][])。 
从 具有 三 个 或 更 多 维度 (double[][][] 等 ) 的 Java 原始 类 型 数组 创建 NDArray， 一 种 方法 
如 下 : 
double[] flat = ArrayUtil.flattenDoubleArray(myDoubleArray); 
int[] shape = ...; // 这 里 为 数组 形状 
INDArray myArr = Nd4j.create(flat, shape,'c'); 
5. 获取 和 设置 不 同 的 NDArray 值 
9 INDArray， 可 以 通过 你 想 去 获取 或 设置 的 元 素 的 索引 来 获取 或 设置 值 。 秩 为 N 的 数 
组 〈 即 具有 N 维 的 数组 ) ， 需 要 V 个 索引 。 


优化 NDArray 操作 的 性 能 
从 性 能 方面 考虑 ， 单 独 获 取 或 设置 值 ( 例 如 在 for 循环 中 一 次 处 理 一 个 值 ) 通常 
不 好 。 如 果 可 能 ， 尝 试 使 用 一 次 性 对 大 量 元 素 进 行 操作 的 其 他 INDAmay 方法 。 





















































要 从 二 维 数组 中 获取 值 ， 方 法 如 下 : 
INDArray.getDouble(int row, int column) 

对 于 任意 维度 的 数组 ， 方 法 如 下 : 
INDArray.getDouble(int...) 

要 获得 索引 i、j、k 的 值 ， 方 法 如 下 : 
INDArray.getDouble(i,j,k) 

若 要 设置 值 ， 可 使 用 下 面 任 一 种 putscalar 方法 。 


。 INDArray.putScalar(int[],double) 
。 INDArray.putScalar(int[],float) 
。 INDArray.putScalar(int[],int) 


这 里 ，int[] 是 索引 ， 而 double/float/iint 是 要 放 在 那个 索引 上 的 值 。 


6. 使 用 NDArray 行 
处 理 NDArray 的 部 分 信息 有 多 个 帮助 方法 。 


获取 一 行 。 若 要 从 INDArray 中 获取 一 行 ， 方 法 如 下 : 


INDArray .getRow(int) 
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这 显然 会 返回 一 个 行 向 量 。 这 里 需要 注意 : 这 行 是 一 个 视图 ， 对 返回 行 的 更 改 将 影响 原始 
数组 ， 这 个 特性 有 时 非常 有 用 (例如 myArr.getRow(3).addi(1.90) 将 1.0 添加 到 一 个 大 数组 
的 第 三 行 )。 要 复制 行 ， 可 以 使 用 : 

getRow(int) .dup() 
获取 多 行 。 类 似 地 ， 要 获得 多 行 ， 方 法 如 下 : 

INDArray.getRows(int...) 
这 将 返回 一 个 行 堆 又 的 数组 。 但 是 请 注意 ， 这 将 是 原始 行 的 副本 (不 是 视图 )， 由 于 
NDArray 在 内 存 中 的 存储 方式 ， 因 此 这 里 不 可 能 有 视图 。 
设置 单行 。 若 要 设置 单个 行 ， 方法 如 下 : 


myArray.putRow(int rowIdx,INDArray row) 





























这 将 myArray 的 第 rowIdx 行 设置 为 值 包含 在 INDArray row 中 。 


7. 确定 NDArray 的 大 小 /维度 的 快速 参考 
以 下 方法 由 INDArray 接口 定义 。 

。 获取 维度 的 数量 : rank()。 

。 仅 用 于 二 维 NDArray: rows()、columns()。 

。 第 i 个 维度 的 大 小 : size(i)。 

。 获取 所 有 维度 的 大 小 ， 结 果 为 int[]: shape()。 
。 确定 数组 中 元 素 的 总 数 : arr.Length()。 


。 参见 : isMatrix()、isVector()、isRowVector() 和 isColumnVector()。 


E.1.4 Dataset 


org.nd4j.linalg.dataset.DataSet 类 表示 具有 输入 和 输出 数据 的 数据 转换 (http://nd4j.org/ 
doc/org/nd4j/linalg/dataset/DataSet.html ) 。 
在 神经 网 络 的 场景 中 ，Dataset 表示 输入 特征 到 输出 向 量 (如 结果 ) 的 映射 。 结 果 专 门 用 于 
神经 网 络 编码 ， 使 得 任何 被 视 为 真 的 标签 都 是 1， 其 余 的 都 是 0。 
1. 与 NDArray 的 关系 
NDArray 表示 输入 和 输出 的 特定 数据 向 量 ，Dataset 对 象 表示 输入 NDArray 和 输 虽 
NDArray 的 组 合 ， 这 就 是 表示 学 习 过 程 的 函数 输入 和 输出 的 方式 。 
2. 常见 用 法 
下 面 的 代码 示例 展示 如 何 使 用 ND4J API 从 Dataset 类 实例 获取 特征 和 标签 ， 以 及 这 些 结 
构 如 何 传递 给 经 过 训练 的 模型 并 生成 结果 NDArray。 

DataSet t = ... 

INDArray features = t.getFeatureMatrix(); 


INDArray lables = t.getLabels(); 
INDArray predicted = model.output(features,false); 


这 个 简单 的 代码 片段 说 明了 DataSet、NDArray 和 DL4J 模型 的 核心 关系 。 





























上 上 
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E.2 创建 输入 向 量 


之 所 以 强调 向 量 创建 ， 是 因为 它 是 每 个 建 模 工 作 使 用 的 核心 技术 。 你 需要 了 解 向 量化 策 
略 ， 然 后 应 用 ND4J API 实现 向 量化 策略 。 正 如 前 面 提 到 的 ， 建 模 输入 数据 是 与 输出 向 量 
相关 的 一 组 输入 特征 。 本 节 讲 解 如 何 创 建 它们 并 将 其 与 Dataset 对 象 绑 定 。 


向 量化 的 简单 示例 

这 些 代码 片段 则 在 简单 展示 设置 特征 和 标签 值 的 基本 概念 ， 在 实践 中 ， 可 能 
其 他 更 高 效 的 ND4J 方 法。 很 多 时 候 ，DL4J 记录 读 取 器 将 为 实践 者 手动 完 
成 大 部 分 工作 ， 本 节 只 是 展示 如 何 实际 地 操作 数据 。 























向 量 创建 的 基本 方法 
先 创建 一 个 简单 的 有 两 列 的 特征 向 量 ， 如 下 所 示 : 
INDArray myFeatures = ND4j.create(new float[]{0.5, 0.5},new int[]{1,2}); 
1. 设置 向 量 的 大 小 
使 用 ND4j.create() 方法 的 第 二 个 参数 控制 向 量 的 大 小 。 
new int[]{1,2} 
该 参数 指示 ND4J 创建 一 个 具有 两 个 特征 列 的 单行 NDArray。 


2. 设置 特征 值 
创建 特征 值 的 方法 有 很 多 种 ， 下 面 的 代码 片段 展示 了 在 向 量 中 手动 设置 特征 值 最 简单 的 
方法 。 

for ( int row = 0; row < myFeatures.rows(); row++ ) { 


for ( int col = 0; col < myFeatures.getRow( row ).columns(); col++ ) { 
myFeatures.getRow(row).putScalar(col, 0.9); 


























} 
} 


在 这 个 示例 中 ， 每 行 中 每 一 列 的 值 设置 为 0.9。 

3. 设置 标签 

设置 标签 与 设置 特征 值 一 样 简单 ， 因 为 输入 特征 数据 和 输出 数据 使 用 相同 的 数据 结构 : 
NDArray。 为 了 建立 标签 数据 ， 需 要 根据 正在 建立 的 模型 类 型 以 及 我 们 要 求 的 输出 策略 对 
数据 进行 编码 。 

单 标签 输出 。 在 这 种 情况 下 ， 用 于 标签 的 输出 NDArray 将 具有 单列 ， 我 们 将 一 个 标签 的 值 
设置 为 0.0， 将 另 一 个 标签 的 值 设置 为 1.0。 

myFeatures.getRow(0).putScalar(0, 1.0); 


多 标签 输出 。 在 这 种 情况 下 ， 用 于 标签 的 输出 NDArray 中 每 个 标签 都 有 一 列 。 训 练 数据 集 
中 的 每 个 类 别 (标签 ) 将 匹配 输出 NDArray 中 的 特定 列 。 基 于 训练 的 目的 ， 我 们 将 与 标签 
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索引 相同 的 列 的 值 设 置 为 10， 如 下 面 的 示例 所 示 : 


myFeatures.getRow(0).putScalar(0, 0.0); 
myFeatures.getRow(0).putScalar(1, 1.0); 
myFeatures.getRow(0).putScalar(2, 0.0); 


回归 的 输出 。 在 这 种 情况 下 ， 用 于 回归 模型 输出 值 的 输出 NDArray 将 具有 单列 。 我 们 将 这 
个 值 设 置 为 与 输入 向 量 关 联 的 浮 点 


myFeatures.getRow(0).putScalar(0, 55.25); 


E.3 使 用 MLLiLbUtil 


DL4J 平 台 还 包含 支持 与 其 他 机 器 学 习 库 互 操作 的 工具 。 本 节 将 介绍 MLLibUtil 类 的 一 些 方 
法 ， 以 帮助 处 理 Spark 向 量 对 象 。 


E.3.1 从 INDArray 转 换 到 MLLib 向 量 


如 果 需 要 将 NDArray 转换 为 MLLib 向 量 ， 可 以 使 用 MLLibUtil.toVector( INDArray ) 方法 ， 
如 下 所 示 : 


Vector prediction = MLLibUtil.toVector( myNDArray ); 






































TI 























E.3.2 ”从 MLLib 向 量 转换 到 INDArray 


如 果 需 要 将 MLLib 向 量 转换 为 NDArray 向 量 ， 可 以 使 用 MLLibUtil.toVector(Vector) 方法 ， 
如 下 所 示 : 


INDArray ndArray = MLLibUtil.toVector( labeledPoint.features() ); 


E.4 ”使 用 DL4J 进 行 模型 预测 


本 节 研 究 DL4J 和 ND4J 中 类 的 交互 ， 以 便 在 API 级 别 进行 模型 预测 。 


同时 使 用 DL4J 和 ND4J 
通常 在 由 DL4 中 的 模型 做 出 预测 的 场景 中 ， 使 用 MultiLayerNetwork 方法 来 表示 模型 ， 并 
将 INDArray 对 象 作 为 输入 传递 到 output() 方法 。 该 方法 的 输出 是 表示 每 个 标签 的 概率 的 
列表 ， 其 中 最 大 的 概率 被 视 为 输入 的 “预测 标签 ”。 

MultiLayerNetwork.output(INDArray input, boolean train) 
稍 后 更 多 示例 将 展示 使 用 这 个 方法 与 经 过 训练 的 DL4J 模型 ， 来 产生 由 ND4J] NDArray 表 
示 的 输出 。 
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输出 值 来 自 哪里 ? 








由 output() 方法 返回 的 包含 在 NDArray 中 的 输出 值 通常 如 下 所 示 : 








[0.5，0.5] 


这 些 值 是 基于 输入 向 量 的 前 馈 传递 之 后 网 络 最 终 层 (“输出 层 ") 的 激活 值 。 


这 个 例子 中 有 一 个 一 行 两 列 的 NDArray， 每 一 列表 示 与 其 相关 联 的 标签 的 得 分 ， 每 行 的 列 


值 的 含义 取决 于 生成 的 输出 层 的 类 型 。 
的 输出 。 











1. 不 同类 型 输出 层 的 输出 向 量 的 区 别 
记 住 ，softmax 激活 函数 限制 输出 的 总 和 为 1.0 (如 概率 )， 而 sigmoid 激活 函数 则 分 别 限 制 


输 昌 








能 都 是 0.9，sigmoid 层 不 具有 这 种 “横向 ”约束 。 
用 于 二 元 分 类 的 逻辑 输出 层 。 这 种 类 型 的 层 的 输出 表示 二 元 标签 为 真 的 概率 。 








INDArray predictions = trainedNetwork.output( ndArrayFeatures ); 


输出 向 量 中 每 个 条 目 表 示 特 定 类 型 的 标签 ， 并且 它们 的 概率 值 与 其 他 标签 不 相关 。 
用 于 多 标签 分 类 的 softmax 输出 层 。softmax 层 的 输出 将 是 一 个 概率 列表 ， 总 和 为 1.0。 


心 公 
已 云 





INDArray predictions = trainedNetwork.output( ndArrayFeatures ); 
for ( int row = 0; row < output.rows(); row++ ) { 
System.out.printLn( "Input Row: " + row ); 
for ( int col = 0; col < output.getRow( row ).columns(); col++ ) { 
System.out.println( "\tColumn: " + col + + Output.getRow( row ) 
.getDouble( col ) ); 


} 


给 出 类 似 于 下 面 的 输出 。 


Input Row: 0 
Column: 0:0.996791422367096 
Column: 1:0.0032307980582118034 

Input Row: 1 
Column: 0:0.0016306628240272403 
Column: 1:0.9983481764793396 

Input Row: 2 
Column: 0:0.0016311598010361195 
Column: 1:0.9983481168746948 

Input Row: 3 
Column: 0: 
Column: 1: 


© 


.9988488554954529 
.0011729325633496046 


© 


输出 向 量 的 每 个 条 目 表示 关联 标签 的 概率 ， 行 中 的 每 列 与 特定 的 标签 相关 联 。 


下 面 将 展示 如 何 处 理由 不 同 输出 层 生 成 的 不 同类 型 


tH 值 。 例 如 softmax 层 输出 的 概率 加 起 来 会 达到 1.0， 但 是 sigmoid 层 输出 的 每 个 单元 可 
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用 于 回归 输出 的 线性 输出 层 。 回 归 模 型 使 用 单个 输出 ， 该 输出 表示 我 们 希望 建 模 的 “ 恒 
等 ”激活 函数 (如 线性 ) 的 输出 值 。 

2. 从 返回 的 INDArray 中 获取 预测 标签 

我 们 在 已 训练 的 网 络 上 调用 output() 方法 ， 获 得 结果 概率 ， 并 找到 最 大 概率 ， 如 下 所 示 : 


INDArray predictions = trainedNetwork.output( ndArray ); 
int maxLabeLIndex = Nd4j.getBlasWrapper().iamax( predictions ); 














.output() 方法 相对 于 .predict() 的 优点 
可 以 在 回归 和 分 类 时 使 用 output() 方法 ， 因 为 它 用 起 来 稍微 灵活 一 些 。 
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附录 F 
使 用 DataVec 





作者 : Alex Black 
DataVec 是 一 个 处 理 机 器 学 习 数 据 的 库 ， 处 理 机 器 学 习 流 水 线 的 提取 、 转 换 和 加 载 (ETL) 
或 向 量化 组 件 ， 其 目标 是 简化 原始 数据 的 准备 和 加 载 ， 使 其 成 为 便于 机 器 学 习 使 用 的 格 
式 。DataVec 的 功能 包括 加 载 用 于 单机 和 分 布 式 (Apache Spark) 应 用 程序 的 表格 形式 数据 
(CSV 文件 等 )、 图 像 和 时 间 序 列 数据 集 。 


ND4J 向 量 创建 与 DataVec 


DataVec 用 于 处 理 本 书 前 面 提 到 的 许多 特征 和 标签 创建 的 繁杂 工作 。 使 用 
DataVec 被 视 作 DL4J 工作 流 在 单机 和 Spark 上 的 最 佳 实践 。 













































































DataVec 主要 有 两 种 功能 。 


。 从 多 种 格式 加 载 数据 。 
。 执行 常见 的 数据 转换 操作 (通常 被 称 为 data wrangling 或 data munging)。 


下 面 分 别 介绍 这 两 种 功能 。 


F.1 为 机 器 学 习 加 载 数据 


机 器 学 习 的 数据 格式 多 样 ， 有 不 同 的 要 求 以 及 加 载 每 种 格式 的 数据 的 库 。 通 常 机 器 学 习 实 
践 者 最 终 会 编写 一 次 性 代码 来 加 载 数 据 ， 这 了 既 耗 时 又 易 出 错 。DataVec 通过 两 种 方式 缓解 
这 些 问 题 : 第 一 ， 为 常见 用 例 提 供 数据 加 载 功能 ， 例 如 读 取 图 像 和 CSV 数据 ， 第 二 ， 提 
供用 于 添加 新 数据 格式 或 数据 源 的 简单 抽象 集 。 
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ETL、 预 处 理 与 向 量化 
推荐 的 最 佳 实践 是 使 用 DataVec 这 样 的 工具 将 数据 预 处 理 成 DL4J 可 以 轻松 
读 取 和 自动 向 量化 的 格式 。 手 工 向 量化 原始 数据 是 一 项 劳动 密集 型 活动 ， 你 
应 该 尽量 避免 这 么 做 。 


DataVec 提供 的 抽象 集 相 对 简单 。 


Writable 是 表示 数据 的 接口 。 例 如 可 以 使 用 Doublewritable 表示 双 精 度数 值 ， 还 可 以 使 用 
Text 实例 表示 文本 数据 。 


RecordReader 接口 提供 了 从 原始 数据 格式 转换 为 常见 样本 格式 的 机 制 。 具体 说 来 , RecordReader 
获取 原始 数据 并 将 其 转换 为 List<Writable> 表示 ， 然 后 DL4J 的 RecordReaderDataSetIterator 
类 可 以 读 取 该 表示 ， 还 可 以 将 样本 组 合 为 小 批量 Dataset 对 象 ， 如 图 F-1 所 示 。 

















| CSV Line | Image (JPG, etc) other ] 原始 样本 格式 











J J + 
[ CSVRecordReader | | ImageRecordReader | RecordReader ] DataVec 记 录 读 取 器 
于 
List<Writable> 加 载 的 数据 
Rt 4 d 
ecordReader 
Der DL4]J RecordReaderDataSetIterator 














Y 
DataSet 已 做 好 训练 准备 


F-1: DataVec 处 理 流水 线 





类 似 地 ，SequenceRecordReader 接口 提供 了 加 载 序列 (时 间 序 列 ) 数据 的 机 制 。 在 DataVec 中 ， 
单个 ( 非 序 列 ) 样本 表示 为 List<Writable>， 而 序列 样本 表示 为 List<List<Writable>>， 
可 以 将 其 看 作 时 间 步 的 列表 ， 即 外 部 列表 是 时 间 步 的 列表 ， 而 内 部 列表 是 每 个 时 间 步 的 值 
的 列表 。 换 句 话 说， 代码 mySequence.get(i).get(j) 将 返回 第 i 个 时 间 步 中 第 j 个 值 。 使 
用 序列 记录 读 取 器 实际 上 与 使 用 普通 的 记录 读 取 器 相同 ， 如 图 F-2 所 示 。 














原始 序列 样本 格式 


| CSV File | [ Video (MP4, etc) | Other 


于 
CSVSequenceRecordReader| CodecRecordReader ..SequenceRecordReader 


List<List<Writable>> 











DataVec 序 列 记录 读 取 器 












加 载 的 序列 数据 


SequenceRecordReader 
DataSetlterator 


DataSet 已 做 好 训练 准备 


F-2: DataVec 序列 数据 处 理 流水 线 


DL4]J SequenceRecordReaderDataSetIterator 























注 1: 其 他 类 型 包括 Intwritable、LongWritable、FloatWritable 和 NullWritable。DataVec 还 提供 了 一 个 
NDArrayWritable 类 ， 用 于 通过 ND4J 高 效 地 处 理 数 字数 组 数据 ， 例 如 图 像 。 
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DataVec 和 DL4J 处 理 训 练 数 据 的 方法 的 一 个 重要 特性 是 ， 它 们 上 只 有 在 需要 时 ， 才 使 用 友 
代 器 模式 加 载 数 据 。 这 意味 着 只 有 在 需要 时 才能 加 载 训练 数据 (如 果 需 要 的 话 ， 异 步 预 
取 ) ， 而 不 是 一 次 性 加 载 所 有 数据 到 内 存 中 〈 这 对 于 大 型 数据 集 通常 是 不 可 行 的) 。 因 为 这 
个 原因 ，RecordReader 、SequenceRecordReader 和 DataSetIterator 接口 都 提供 了 next()、 
hasNext() 和 reset() 方法 。 


F.2 ”为 多 层 感 知 器 加 载 CSV 数 据 
可 以 使 用 几 行 代码 加 载 CSV 数据 ， 这 个 过 程 也 可 用 于 其 他 类 型 的 分 隔 数据 ， 如 制 表 符 分 
隔 格式 。 


示例 F-l 展示 了 如 何 加 载 CSV 数据 文件 并 创建 DataSetIterator， 为 在 DL4J 中 训练 网 络 
做 好 准备 。 


示例 F-1 加 载 CSV 数据 
// 首 先 指定 文件 路 径 ， 以 及 一 些 属性 : 


























File file = new File( "/path/to/my/file.csv" ); 


int numLinesToSkip = 0; // 可 选项 ， 是 否 允 许 跳 过 标题 行 
String delimiter = ","; / /有喜 号 分 隔 





// 创 建 记录 读 取 器 ， 并 初始 化 它 : 


RecordReader reader = new CSVRecordReader( numLinesToSkip, delimiter ); 
InputSplit inputSplit = new FileInputSplit( file ); 
reader .initialize( inputSplit ); 





// 创 建 DataSetIterator。 假 设 这 里 要 进行 分 类 : 





int minibatchSize = 10; // 每 个 小 批量 中 的 样本 数 
int LabeLIndex = 7; // 包 含 标签 的 列 的 索引 
int numClasses = 5; // 类 别 数量 (标签 分 类 ) 


DataSetIterator iterator = 
new RecordReaderDataSetIterator( reader, minibatchSize, labelIndex, numClasses ); 


// 使 用 DataSetIterator 训 练 网 络 : 





myNetwork.fit( iterator ); 


需要 注意 的 事项 如 下 。 
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。 无 参数 (no-arg) 构 造 函 数 (new CSVRecordReader()) 默认 为 逗号 分 隔 格式 ,并 且 跳 过 0 行 。 

。 在 RecordReaderDataSetIterator 中 ， 用 户 可 以 自由 配置 小 批量 的 大 小 。 

。 RecordReaderDataSetIterator 中 存在 许多 其 他 构造 图 数 ， 用 于 多 标签 回归 ， 以 及 像 无 监 
督学 习 这 样 的 无 标签 情况 。 

。 对 于 分 类 ，RecordReaderDataSetIterator 假定 其 中 一 列 包含 类 别 索 引 的 整数 值 ， 即 一 列 
包含 在 0 至 numClasses - 1 范围 内 的 整数 值 。 

。 可 以 使 用 其 他 的 分 隔 符 。 例 如 \t 表 示 以 制 表 符 分 隔 的 记录 ， 或 者 使 用 静态 字段 
CSVRecordReader .QUOTE_HANDLING_DELIMITER 处 理 引 号 间 包 含 喜 号 的 记录 。 

。 CSVRecordReader 以 样本 出 现在 文件 中 的 顺序 进行 输出 。 如 果 数 据 是 非 随 机 顺序 的 〈 例 
如 所 有 类 别 为 0 的 样本 后 面 跟着 所 有 类 别 为 1 的 样本 ) ,那么 应 该 先 增加 一 个 混 洗 的 步 又。 


F.3 ”为 CNN 加 载 图 像 数据 


DataVec 的 ImageRecordReader 是 用 于 读 取 图 像 数 据 并 执行 常见 的 图 像 操 作 (如 裁剪 ) 的 
记录 读 取 器 。ImageRecordReader 支持 各 种 图 像 格 式 (包括 JPG、PNG、TIFF 和 BMP 等 )， 
以 及 JavaCV 和 OpenCYV 提供 的 高 效 加 载 和 图 像 操 作 。 

ImageRecordReader 的 实现 在 数据 文件 加 载 方式 上 很 灵活 。 示 例 F-2 简单 演示 了 图 像 加 载 。 
在 这 个 示例 中 ， 假 定 图 像 文件 在 目录 中 ， 目 录 名 称 是 标签 (图像 类 别 /分 类 )。 例 如 文件 在 
目录 .../root_directory/label 0、.../root_directory/label_1/ 中。 注意 ， 作 为 标签 的 目录 名 称 
身 可 以 是 任意 值 。 


示例 F-2 ”加载 图 像 数 据 
// 首 先 指定 输入 图 像 深度 (通道 数 ) 


int inputNumChannels = 3; //3 为 RGB 彩 色 图 像 ，1 为 灰 度 图 像 











































































































int outputHeight = 32; / /缩放 到 32 个 像素 的 高 度 输出 
int outputWidth = 32; / /缩放 到 32 个 像素 的 宽度 输出 





// 第 二 步 ， 指 定 根 目 录 ， 并 设置 允许 的 文件 格式 
// 我 们 会 使 用 Random 实 例 来 随机 打 乱 顺序 








File rootDir = new File( "/path/to/my/root_ directory/" ); 
String[] allowedExtensions = BaseImageLoader .ALLOWED_FORMATS; 
Random rng = new Random(); 


FileSplit inputSplit = new FileSplit( rootDir, allowedExtensions, rng ); 


// 每 个 图 像 都 关联 一 个 标签 ， 我 们 使 用 ParentPathLabelGenerator ， 把 每 个 文件 的 路 径 作为 标签 





ParentPathLabelGenerator labelMaker = new ParentPathLabelGenerator(); 
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// 创 建 和 初始 化 ImageRecordReader 


ImageRecordReader reader = 
new ImageRecordReader( outputHeight, outputWidth, inputNumChannels, labelMaker ); 


reader .initialize( inputSplit ); 


// 最 后 ， 创 建 DataSetIterator : 


int minibatchSsize = 10; // 每 个 小 批量 中 的 样本 数 


int labelIndex = 1; // 总 是 为 ImageRecordReader 设 置 值 为 1 


3; // 类 别 数量 (标签 分 类 ) 


int numClasses 


DataSetIterator iterator = 
new RecordReaderDataSetIterator( reader, minibatchSize, labelIndex, numClasses ); 


// 使 用 DataSetIterator 训 练 网 络 : 





myNetwork.fit( iterator ); 














ImageRecordReader 还 支持 许多 其 他 功能 。 
例如 为 了 在 图 像 上 实现 训练 /测试 分 片 ， 可 以 将 示例 F-3 中 的 代码 添加 到 示例 F-2 的 代码 中 。 
示例 F-3 ”创建 测试 / 训练 分 片 


InputSplit[] trainTest = inputSplit.sample( null, 80, 20 ); 





InputSplit trainData = trainTest[0]; / /8389% 训 | 练 


InputSplit testData = trainTest[1]; //20% 测 试 
(other code omitted) 


reader .initialize( trainData ); 


类 似 地 ， 为 了 向 流程 添加 一 些 额 外 的 转换 步骤 ， 可 以 将 ImageTransform 类 传递 给 
ImageRecordReader 初始 化 ， 如 示例 F-4 所 示 ， 任 意 翻转 和 裁剪 图 像 。 


示例 F-4 进行 转换 的 步骤 


int maxCropPixels = 20; 








ImageTransform transform = 
new MultiImageTransform( new Random(), 
new FlipImageTransform(), new CropImageTransform( maxCropPixels ) ); 


reader .initialize( trainData, transform ); 
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F.4 为 RNN 加 载 序 列 数据 


序列 (时 间 序 列 ) 数据 有 许多 可 能 的 表示 和 格式 ， 本 市 重点 介绍 一 个 简单 但 有 用 的 格式 。 











CSV 数据 ， 每 个 文件 包含 一 个 时 间 序 列 (不 同文 件 的 时 间 序 列 长 度 可 能 不 同 )。 

在 CSV 文件 中 ， 每 行 代表 一 个 时 间 步 。 

特征 和 标签 出 现在 所 有 时 间 步 中 ,并 且 每 个 样本 的 特征 和 标签 都 包含 在 同一 个 文件 中 ( 即 
一 些 列 是 特征 ， 有 一 列 是 用 于 分 类 的 标签 索引 )。 





























在 示例 F-5 中 ， 我 们 使 用 前 面 的 ( 非 序 列 ) CSYV 示例 来 处 理 一 个 分 类 问题 ， 其 中 类 别 标签 
是 在 0 和 numClasses-1 (包含 ) 之 间 的 整数 值 。 











示例 F-5 用 DataVec 加 载 序列 数据 





// 首 先 指定 包含 CSV 文 件 的 根 目录 


File baseDir = new File("/path/to/base_directory/"); 





// 第 二 步 ， 创 建 并 初始 化 序列 记录 读 取 器 
// 使 用 随机 数字 生成 器 来 打 乱 顺序 














InputSplit inputSplit = new FileSplit(baseDir, new Random()); 


int numLinesToSkip = 0; // 可 选项 ， 是 否 允 许 跳 过 标题 行 
String delimiter = ","; // 过 号 分 隔 文 件 


SequenceRecordReader reader = new CSVSequenceRecordReader(numLinesToSkip, 
delimiter); 


reader .initialize(inputSplit); 





// 创 建 用 于 训练 的 DataSetIterator: 











int minibatchSize = 10; // 每 个 小 批量 中 的 样本 数 
int LabeLIndex = 7; // 包 含 标签 的 列 的 索引 
int numClasses = 5; // 类 别 数量 (标签 分 类 ) 


boolean regression = false; 


DataSetIterator iterator = 
new SequenceRecordReaderDataSetIterator( reader, minibatchSize, numClasses, 
labelIndex, regression ); 


DataSetIterator iterator = 
new SequenceRecordReaderDataSetIterator( reader, minibatchSize, labelIndex, 
numClasses ); 











// 使 用 DataSetIterator 训 练 网 络 








myNetwork.fit(iterator); 
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SequenceRecordReader 还 支持 其 他 用 途 ， 例 如 使 用 不 同 的 SequenceRecordReader (如 对 不 
同 的 文件 ) 进行 回归 ， 以 及 加 载 特 征 和 标签 。 


F.5 数据 转换 : 使 用 DataVec 加 工 数据 


通常 机 器 学 习 数 据 的 格式 需要 某 种 程度 的 预 处 理 才 能 使 用 。 这 种 预 处 理 可 以 是 简单 地 从 
数据 集中 删除 一 些 不 必要 的 列 ， 也 可 以 像 从 多 个 独立 数据 源 连接 和 清理 数据 一 样 复杂 。 
DataVec 为 流水 线 的 这 个 阶段 的 标准 数据 和 序列 数据 提供 广泛 的 转换 功能 

使 用 DataVec 加 工 数据 的 典型 工作 流 如 下 。 

(1) 为 原始 输入 数据 定义 一 个 模式 ( 稍 后 详细 说 明 )。 

(2) 定义 一 组 在 数据 上 执行 的 操作 (删除 列 ， 处 理 缺 失 值 等 )。 

(3) 加 载 数据 。 

(4) 执行 操作 。 

(5) 保存 处 理 后 的 数据 。 

当 处 理 需 要 预 处 理 的 数据 时 ， 建 议 将 数据 预 处 理 和 网 络 训练 分 为 独立 的 步 又。 也 就 是 说 ， 
建议 先 执 行 预 处 理 ， 将 数据 存储 到 磁盘 ， 然 后 在 网 络 训练 需要 时 从 磁盘 加 载 数据 。 

为 了 在 数据 集 上 执行 一 组 操作 ， 可 以 使 用 Apache Spark， 这 样 就 能 在 集群 和 单机 上 执行 
(通过 Spark 本 地 模式 )。 此 外 ， 通 过 在 Spark 上 执行 操作 ， 我 们 可 以 扩展 到 大 型 数据 集 
( 数 亿 条 记录 ， 甚 至 更 多 )。 尽 管 Spark 执行 是 当前 唯一 的 选择 ， 但 是 请 记 住 ，DataVec API 
本 身 独 立 于 运行 平台 ， 将 来 会 支持 其 他 集群 计算 框架 


F.5.1 DataVec 转 换 : 关键 概念 

对 于 转换 功能 ， 需 要 了 解 DataVec 的 一 些 关键 的 设计 思想 和 类 。 

首先 ，DataVec 中 的 样本 以 与 前 一 节 相 同 的 方式 表示 : 每 个 样本 都 是 表示 标准 数据 的 
List<Writable>， 或 表示 序列 的 List<List<Writable>>。 在 每 个 操作 之 后 ， 新 数据 以 其 中 一 
种 格式 来 表示 。 这 也 意味 着 可 以 使 用 RecordReader 和 SequenceRecordReader 类 加 载 想 转换 
的 原始 数据 。 

DataVec 中 的 Schema 是 一 个 定义 了 三 种 数据 的 类 。 


。 每 列 的 名 称 。 

。 每 列 的 类 型 (数字 、 分 类 、 字 符 串 等 ) 。 

。 对 每 列 的 允许 值 的 限制 (如 果 有 的 话 ) (例如 列 是 否 必须 仅 包 含 正 值 )。 

对 于 序列 数据 ， 我 们 有 SequenceSchema， 它 包含 通 Schema 相同 的 每 列 的 信息 。Datavec 跟 
踪 Schema 在 每 个 操作 之 后 的 变化 ， 可 以 在 执 和 i 点 获得 Schema。 
Transformprocess 定义 了 在 数据 上 执行 操作 的 次 序 ， 由 指定 的 两 种 数据 来 构造 。 


。 初始 输入 数据 的 Schema。 
。 我 们 希望 执行 的 一 组 操作 。 
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这 些 是 通过 建造 者 模式 来 指定 (如 下 面 的 示例 所 示 ) 的 ， 你 也 可 以 选择 使 用 JSON 或 
YAML 文件 。 


DataVec 提供 了 可 以 在 数据 上 执行 的 多 种 操作 ， 见 表 F-1。 
表 F-1: DataVec 操 作 类 型 










































































名 称 描述 示例 应 用 

转换 每 个 样本 或 每 个 序列 的 一 般 操作 移 除 列 ， 数 学 运算 ， 解 析 数 据 /时 间 值 

过 滤 移 除 与 条 件 匹配 的 样本 过 滤 掉 包含 缺失 值 或 无 效 值 的 样本 

归 约 通过 key 和 归 约 对 样本 分 组 求 每 个 客户 ID 的 最 小 值 、 最 大 值 或 总 和 

转换 为 序列 ”通过 一 个 或 多 个 关键 列 将 多 个 样本 组 合 日 志 数 据 : 将 每 个 人 P 或 客户 的 不 同 记录 组 合 为 一 个 
为 序列 序列 

从 序列 转换 ”将 序列 数据 中 的 每 个 时 间 步 分 成 单独 将 自 定义 事务 的 序列 分 为 单独 的 记录 
的 ( 非 序列 ) 格式 





F.5.2 DataVec 转 换 功 能 : 一 个 示例 
本 节 的 示例 非常 简单 ， 展 示 如 何 对 小 型 数据 集 执行 一 些 常见 操作 。 


我 们 假定 这 个 示例 中 有 一 些 事务 数据 ， 和 希望 从 中 预测 标签 (欺诈 / 合法)， 进 而 假定 有 以 下 
简单 的 数据 集 ， 其 中 有 这 些 列 : [customerID, dateTime, amount, label]: 
3420348 ,2016-01-01 06:55:07,150.00,Legitimate 


9087434,2016-01-01 15:16:18,78.10,Legitimate 
4530843 ,2016-01-02 11:39:24,780.83,fraud 


首先 为 数据 指定 一 个 Schema， 操 作 如 下 : 


Schema schema = new Schema.Builder() 

.addColumnLong("customerID") 

.addColumnString("dateTime") 

.addColumnDouble("amount") 

.addColumnCategorical("label", Arrays.asList("legitimate","fraud")) 
.build(); 


注意 ， 列 是 按照 它们 在 文件 中 出 现 的 顺序 来 指定 的 。 


但 是 这 个 数据 集 不 能 直接 使 用 。 为 了 训练 神经 网 络 ， 输 入 数据 需 为 数字 类 型 数据 。 为 了 准 
备 训练 数据 ， 需 要 做 以 下 工作 : 


。 删除 客户 ID 列 ;， 
。 将 类 别 (字符 串 ) 标签 转换 为 整数 (0 或 1)，; 
。 解析 dateTime 列 ， 并 提取 当天 的 小 时 作为 新 的 特征 列 。 


可 以 使 用 TransformProcess 来 指定 所 有 这 些 操作 ， 代 码 如 下 所 示 : 


Transformprocess process = new Transformprocess.Builder(schema) 
.TemoveColumns("customerID") 

.CategoricalToInteger("label") 
.StringToTimeTransform("dateTime","YYYY-MM-dd HH:mm:ss", DateTimeZone.UTC) 
.transform(new DeriveColumnsFromTimeTransform.Builder("dateTime") 

















RH 
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.addIntegerDerivedColumn("hourOfDay", DateTimeFieldType.hourofDay()).build()) 
.TremoveColumns("dateTime") 
.build(); 


每 个 操作 将 按照 指定 的 顺序 执行 ， 这 些 操作 中 的 大 多 数 都 如 其 名 所 示 。 对 于 那些 含 更 详细 
参数 的 操作 (比如 stringToTimeTransform 操作 ) ， 请 参考 DataVec 的 Javadoc。 


最 后 必须 加 载 数 据 ， 执 行 刚才 定义 的 操作 ， 然 后 保存 数据 。 代 码 如 下 所 示 : 


// 对 Apache Spark 的 一 些 初始 化 设置 : 

SparkConf conf = new SparkConf(); 
conf.setMaster("local[*]"); 

conf.setAppName( "DataVec Example"); 
JavaSparkContext sc = new JavaSparkContext(conf); 


// 使 用 Spark 加 载 数据 
String path = "/path/to/my/file.csv"; 
JavaRDD<String> lines = sc.textFile(path); 
JavaRDD<List<Writable>> examples = 
lines.map(new StringToWritablesFunction(new CSVRecordReader())); 





// 执 行 操作 
SparkTransformExecutor executor = new SparkTransformExecutor(); 
JavaRDD<List<Writable>> processed = executor .execute(examples, process); 


// 保 存 处 理 后 的 数据 : 
JavaRDD<String> toSave = processed.map(new WritablesToStringFunction(",")); 
toSave.saveAsTextFile("/path/to/save/to/"); 








执行 这 些 操作 后 ， 数 据 如 下 所 示 : 


6,150.00,0 
15,78.10,0 
11,780.83,1 


上 面 输出 数据 的 列 是 “hourOfDay”“amount” 和 “label”。 可 以 使 用 process.getFinaLSchema() 
从 Schema 获得 输出 数据 的 列 名 和 类 型 。 


这 样 就 可 以 了 。 通 过 短 短 儿 行 代 码 ， 我 们 加 载 了 数据 (以 可 以 扩展 到 非常 大 的 数据 集 的 方 


式 )， 


执行 了 许多 预 处 理 操 作 ， 并 导出 了 可 用 于 训练 的 数据 。 虽 然 示 例 很 简单 ， 但 展示 了 














DataVec 在 准备 机 器 学 习 数据 方面 的 实用 性 和 灵活 性 。 
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附录 G 


从 源 代码 构建 DL4J 





一 些 开发 者 可 能 选择 构建 自 定义 的 扩展 、 修 改 DL4 的 核心 ， 或 者 使 用 最 新 的 代码 库 。 这 
里 提供 给 这 些 实践 者 如 何 直 接 从 源 代码 构建 DL4 的 说 明 。 


GitHub 是 一 个 基于 Web 的 版 本 控制 系统 ， 是 大 多 数 开 源 项 目 事 实 上 的 托管 主机 。 如 果 你 
打算 通过 修复 漏洞 和 提交 代码 来 为 ND4J 或 DL4J 项 目 做 贡献 ， 那 么 你 需要 Git 和 GitHub 。 
你 真 的 需要 从 源 代 码 开始 构建 吗 ? 


如 果 只 是 打算 简单 地 使 用 代码 库 ， 那 么 你 不 需要 安装 GitHub， 因 此 也 无 须 下 
载 源 代码 。 


G.1 验证 Git 是 否 已 安装 


若 要 验证 Git 是 否 已 安装 并 可 以 正常 工作 ， 请 在 命令 行 中 输入 以 下 内 容 : 

git --version 
如 果 命令 返回 错误 ， 建 议 你 安装 Git。 如 果 你 还 没有 GitHub 账户 ， 建 议 注册 一 个 ， 注 册 免 
费 且 很 简单 。 


G.2 克隆 GitHub 上 核心 的 DL4J 的 工程 


要 想 使 用 源 代 码 ， 你 需要 克隆 ND4J 或 DL4J， 在 控制 台中 输入 以 下 命令 : 


git clone https://github.com/deeplearning4j/nd4j 












































git clone https://github.com/deeplearning4j/datavec 


git clone https://github.com/deeplearning4j/deeplearning4j 
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你 可 能 还 需要 克隆 DL4 示例 代码 ， 以 便 它们 能 够 与 ND4J 或 DL4J 的 预 构建 示例 一 起 工作 
(版 本 会 有 所 不 同 )。 


git clone https://github.com/deeplearning4j/dl4j-0.4-examples 
更 多 示例 帮助 


若 想 了 解 通过 Git、Intelli] 和 Maven 安装 示例 代码 的 做 法 ， 请 参阅 快速 入 门 
的 页 面 (https://deeplearning4j.org/docs/latest/deeplearning4j-quickstart ) 。 





G.3 通过 压缩 文件 下 载 源 代码 


另 一 种 获取 源 代码 的 方法 是 点 击 ND4J GitHub 页 面 (https:/github.comy/deeplearning4j/nd4j/ 
archive/master.zip) 的 “Download ZIP” 按 钮 。 


G.4 使 用 Maven 构 建 源 代码 
你 可 以 将 Maven 和 Git 结合 使 用 ， 确 保 ND4J、DataVec 和 DL4J 被 正确 构建 。 为 了 确保 你 
本 地 的 这 些 库 为 最 新 工作 版 本 ， 请 切换 到 它们 的 根 目录 ， 并 在 提示 符 中 输入 以 下 命令 : 


mvn clean install -DskipTests=true -Dmaven.javadoc.skip=true 


按照 ND4J、DataVec 和 DL4 的 顺序 运行 一 个 干净 的 安装 是 获得 最 新 的 漏洞 修复 和 特性 的 
好 方法 。 
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附录 HH 
设置 DL4J 项 目 











DL4J 是 一 套 工 具 ， 为 深度 学 习 提供 了 一 个 完整 的 平台 。 你 可 以 将 多 个 依赖 连接 在 一 起 ， 
来 执行 支持 深度 学 习 模 型 的 不 同 功能 。DL4J 使 用 Maven 来 控制 项 目 中 依赖 的 连接 。 本 节 
介绍 一 些 相关 的 依赖 ， 你 可 以 用 它们 来 构建 自己 的 深度 学 习 模 型 、 工 具 和 集成 。 


H.1 ”创建 一 个 新 的 DL4J 项 目 


DL4J 是 一 个 面向 那些 熟悉 生产 部 署 、Intelli] 等 IDE 和 Maven 等 自动 化 构建 工具 的 专业 
Java 开发 者 的 开源 项 目 。 如 果 你 熟悉 那些 工具 ， 那 么 我 们 的 工具 将 为 你 提供 最 好 的 体验 。 
我 们 的 向 量化 库 ND4J 和 DataVec 将 通过 后 面 的 快速 启动 指令 自动 安装 。 
以 下 是 系统 配置 要 求 。 
(1) Java7 或 以 上 。 
(2) Maven 3.2.5 或 以 上 (依赖 管理 和 自动 构建 工具 )。 
(3) Git。 
你 还 可 以 执行 一 些 可 选 步骤 ， 包 括 安装 以 下 工具 : 
用 于 GPU 的 Cuda 7; 
。 Scala2.10.x; 
。 Windows; 


。 GitHub。 
我 们 从 Java 开始 设置 环境 。 
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H.1.1 Java 
Java 是 ND4J 上 主要 的 接口 及 网 络 开发 的 语言 ， 因 为 它 可 以 在 包含 数 千 个 节点 分 布 的 基于 
云 的 系统 和 低 内 存 的 物 联网 设备 上 运行 。 它 是 个 “一 次 编号， 处 处 运行 ”的 语言 。 
要 测试 你 的 Java 版 本 (或 者 测试 你 是 否 已 安装 它 )， 请 在 命令 行 中 输入 以 下 内 容 : 
Java -VerstLon 


如 果 你 的 机 器 上 没有 安装 Java 7， 请 在 这 里 下 载 Java 开发 工具 包 (JDK，http://bit.ly/2ty205B)。 
对 于 较 新 的 Mac， 第 一 行 的 文件 名 中 会 包含 Mac OS X (每 次 更 新 ， jdk-7u 后 的 版 本 号 递 
增 ) 9 文件 信息 如 下 所 示 : 


Mac OS X x64 185.94 MB - jdk-7u79-macosx-x75.dmg 























H.1.2 ”使 用 Maven 


Maven 是 Java 项 目的 自动 化 构建 工具 (以 及 其 他 用 途 )。 它 会 找到 并 自动 下 载 ND4J] 和 
DL4J 项 目 库 的 最 新 版 本 (.jar 文件 )。 你 可 以 在 Maven Central 仓库 (https://search.maven. 
org/) 中 找到 这 些 项 目 库 。Maven 让 可 以 你 轻松 地 安装 ND4J] 和 DL4J 项 目 ， 它 能 很 好 地 与 
集成 开发 环境 (IDE) 协同 工作 ， 如 IntelliJ。 


要 检查 Maven 是 否 安装 在 你 的 机 器 上 ， 以 及 你 拥有 的 是 哪个 版 本 ， 请 在 命令 行 中 输入 以 下 
命令 ， 


mvn --version 


如 果 你 的 Maven 不 是 最 新 版 本 ， 那 么 需要 更 新 它 (本 文 撰写 时 ， 它 的 版 本 是 3.3.x)。 你 可 
以 在 https://maven.apache.org/ 找到 安装 Maven 的 指引 。 


下 载 包含 Maven 最 新 稳定 版 本 的 压缩 文件 。 在 页 面 下 方 ， 遵 循 适 用 于 你 的 操作 系统 的 指 
引 ， 如 “基于 Unix 的 操作 系统 (Linux、Solaris 和 Mac OS X)”。 


一 个 最 小 的 项 目 对 象 模 型 文件 
要 在 你 自己 的 项 目 中 运行 DL4J， 我 们 强烈 推荐 Java 用 户 使 用 Apache Maven，Scala 用 户 
使 用 SBT。 基 本 的 依赖 及 其 版 本 如 下 所 示 : 


<?xml version="1.0" encoding="UTF-8" ?> 
<project xmlns="http://maven.apache.org/POM/4.0.0" 
xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
<modelVersion>4.0.0</modelVersion> 















































<groupId>MyGroupID</groupId> 
<artifactId>MyArtifactId</artifactId> 
<version>1.0-SNAPSHOT</version> 


<properties> 
<nd4j.version>0.5.0</nd4j.version> 
<dL4j.version>0.5.0</dL4j.version> 
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<datavec.version>0.5.0</datavec.version> 
</properties> 


<dependencies> 
<dependency> 
<groupId>org.deeplearning4j</groupId> 
<artifactId>deeplearning4j-core</artifactId> 
<version>${dl4j.version}</version> 
</dependency> 


<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-x86</artifactId> 
<version>${nd4j.version}</version> 
</dependency> 


</dependencies> 
</project> 


项 目 对 象 模型 说 明 。 项 目 对 象 模型 (POM) 文件 可 能 很 复杂 ， 所 以 我 们 将 列 出 一 些 关键 
配置 ， 帮 助 你 更 好 地 理解 要 做 的 事情 。 下 面 说 明 几 个 核心 DL4J POM 配置 条 目 及 其 在 本 地 
maven repo 中 安装 的 内 容 。 

口 deeplearning4j-core 

deeplearning4j-core 包含 核心 DL4J 神经 网 络 实现 。 
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口 nd4j-x86 
nd4j-x86 是 驱动 DL4J 的 ND4J 库 的 CPU 版 本 。 





H.1.3 IDE 


IDE 帮助 你 使 用 我 们 的 API， 让 你 只 需 几 次 点 击 即 可 构建 网 络 。 建 议 使 用 IntelliJ 或 
Eclipse， 它 们 都 能 与 你 安装 的 Java 版 本 协同 工作 ， 并 通过 Maven 处 理 依 赖 。 


使 用 IntelliJ 快 速 开始 创建 DL4J 工 程 
IntelliJ 的 免费 社区 版 有 安装 说 明 。 


安装 之 后 ， 执 行 以 下 步骤 来 启动 和 运行 (Windows 用 户 请 参阅 https://deeplearning4j.org/ 

docs/latest/deeplearning4j-quickstart 上 的 演练 部 分 ) 。 

(1) 在 命令 行 中 输入 以 下 内 容 : 我 们 目前 用 的 示例 的 版 本 是 0.0.4.x。 
git clone https://github.com/deeplearning4j/dl4j-0.4-examples.git 

(2) 在 Intellij 中 ， 依 次 点 击 File (文件 ) 一 New (新 建 ) 一 Project from Existing Sources 
(来 自 现 有 源 代 码 的 工程 ) 菜单 ， 然 后 使 用 Maven 创建 一 个 新 项 目 。 

(3) 选择 前 面 示 例 的 根 目 录 ， 这 将 在 IDE 中 打开 它们 。 

(4) 复制 并 粘贴 下 一 节 将 介绍 的 支撑 Maven 项 目的 pom.xml 文件 。 

(5) 等 待 mtellij 下 载 所 有 的 依赖 。( 右 下 角 有 水 平 的 进度 条 在 活动 。) 
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(6) 从 左 侧 文件 树 中 选择 一 个 示例 ， 然 后 点 击 “run 。 
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H.2 设置 其 他 Maven POM 


本 节 将 介绍 如 何 为 ND4J 快速 设置 Maven pom.xml 文件 ， 以 及 这 个 工具 套件 中 的 其 他 组 件 。 








ND4J 与 Maven 


ND4J 后 端 是 DL4J 神经 网 络 背 后 的 线性 代数 运算 的 执行 者 ， 它 随 芯 片 的 不 同 而 变化 ， 其 中 
CPU 在 86 库 运行 得 最 快 ， 而 与 GPU 与 Jcublas 库 工 作 得 最 好 。 若 要 在 Maven Central 上 找 
到 ND4J 后 端 ， 请 执行 以 下 操作 。 


(1) 点 击 最 新 版 本 下 的 链接 版 本 号 。 
(2) 在 之 后 出 现 的 页 面 左 侧 复制 依赖 代码 。 
(3) 将 代码 粘贴 到 IntelliJ 项 目 根 目录 的 pom.xml 中 。 


nd4j-x86 后 端的 依赖 代码 如 下 所 示 : 


<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-x86</artifactId> 
<version>${nd4j.version}</version> 
</dependency> 


ND4J 后 端 nd4j-x86 库 适 用 于 所 有 示例 。 如 果 要 安装 额外 的 依赖 ，OpenBlas、Windows 和 
Linux 用 户 请 参考 DL4J 官网 的 入 门 介 绍 。 























设置 DL4J 项 目 | 355 


























附录 
为 DL4J 项 目 妈 置 GPU 





作者 : Vyacheslav Kokorin ，Susan Eraly 


训练 神经 网 络 涉及 大 量 的 线性 代数 计算 。GPU 有 具 有数 千 个 核心 ， 擅 长 解决 这 些 问 题 ， 因 此 
它们 通常 用 于 加 速 训练 ， 并 最 终 使 你 花费 的 每 元 钱 、 每 度 电 都 能 够 获得 更 好 的 计算 性 能 。 


1.1 将 后 端 切换 到 GPU 


DL4J 可 以 在 NVIDIA GPU 上 工作 ， 目 前 支持 Cuda 7.5， 当 Cuda 8.0 发 布 后 DL4J 会 马上 支 
寺 它 。 我 们 将 DL4J 设计 为 即 播 即 用 ， 这 意味 着 将 计算 层 从 CPU 切换 到 GPU 与 切换 pom. 
xml 文件 依赖 中 nd4j 下 的 artifactId 行 一 样 简 单 。 


<dependencyManagement> 
<dependencies> 
<dependency> 
<groupId>org.nd4j</groupId> 
<artifactId>nd4j-cuda-7.5-platform</artifactId> 
<version>${nd4j.version}</version> 
</dependency> 
</dependencies> 
</dependencyManagement> 




















1.1.1 选择 GPU 


一 般 推荐 高 端 消 费 级 型 号 或 专业 的 Tesla 系列 的 型 号 ， 在 本 文 撰写 时 ， 两 张 NVidia GeForce 
GTX 1070 GPU 显卡 是 起 步 阶 段 的 可 靠 选 择 


以 下 是 购买 GPU 时 需要 考虑 的 重点 。 





o 
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口 板 上 集成 的 多 处 理 器 (或 核 ) 的 数量 
板 上 集成 的 多 处 理 器 (或 核 ) 的 数量 越 多 越 好 ， 就 这 么 简单 ， 这 涉及 GPU 在 任意 给 定 
时 刻 能 处 理 多 少 个 并 行 线程 。 
口 设备 上 可 用 的 显存 
设备 上 可 用 的 显存 涉及 可 以 上 传 多 少数 据 到 设备 进行 处 理 。 不 过 ， 显 存 类 型 也 很 重要 ， 
因为 它 决 定 显存 带宽 ， 进 而 决定 传输 速度 。 配 置 不 能 低 于 GDDR5，GDDR5X 更 好 ， 而 
HBMVHBM2 则 是 首选 。 
另 一 个 值得 一 提 的 特性 是 可 选 的 对 半 精 度 的 原生 支持 ， 这 一 特性 出 现在 高 端 Tesla P100 设 
和 特殊 Tegra 设备 中 。 根 据 数据 维度 和 模型 大 小 ， 该 特性 能 够 将 深度 学 习 的 速度 提高 到 
200% 到 300%。 


同样 重要 的 是 考虑 设备 之 间 可 用 的 互 连 选项 。 在 本 文 撰写 时 ， 市 场 上 只 有 两 种 选择 ，PCIe 
和 NVLink， 其 中 NVLink 由 于 能 够 提供 160Gbps 带宽 而 成 为 明显 的 赢家 ， 这 使 得 NVLink 
成 为 所 有 可 能 的 深度 学 习 并 行 性 模型 在 多 GPU 系统 训练 时 的 理想 特性 。NVIDIA 其 至 提供 
了 一 个 预 构建 服务 器 ， 内 置 8 个 Tesla P100 设备 ， 支 持 NVLink 互 连 ， 被 称 为 “DGX-1”。 
它 的 价格 非常 高 ， 标 榜 自 己 很 聪明 ， 宣 传 词 是 “盒子 里 的 超级 计算 机 ”。 不 管 它 是 否 真 的 
聪明 ， 这 个 宣传 词 很 难 反 驳 。 


1.1.2 ”在 多 GPU 系统 上 进行 训练 


DL4J 还 支持 在 多 GPU 系统 上 以 数据 并 行 模 式 进 行 训练 。DL4J 有 一 个 ParallelWrapper 
类 ， 可 以 用 于 将 现 有 的 模型 转换 为 并 行 训 练 的 模型 。 





































































































例如 : 
ParallelWrapper wrapper = new ParallelWrapper .Builder(YourExistingModel) 
.prefetchBuffer(24) 
.workers(4) 


.averagingFrequency(1) 
.reportScoreAfterAveraging(true) 
.build(); 


ParallelWrapper 以 现 有 模型 为 主要 参数 ， 并 行进 行 训练 。 使 用 GPU 训练 时 ， 最 好 将 worker 
的 数量 设置 为 不 少 于 GPU 的 数量 。 具 体 的 设置 值 需要 调整 ， 因 为 它们 与 任务 和 硬件 相关 。 


在 ParallelWrapper 中 ， 初 始 模型 将 被 复制 ， 并 且 每 个 worker 将 训练 自己 的 模型 副本 。 在 
每 X 次 迭代 之 后 ， 执 行 averagingFrequency(X)， 所 有 模型 将 被 平均 ， 然 后 复制 到 worker， 
训练 以 这 种 方式 继续 。 


值得 注意 的 是 ， 对 于 数据 并 行 训练 ， 推 荐 更 高 的 学 习 率 。20% 左右 的 值 会 是 一 个 很 好 的 起 
始 值 。 


1.2 不 同 平 台 上 的 CUDA 


下 面 的 列表 列 出 了 在 不 同 平台 上 查找 CUDA 扩展 指令 的 位 置 。 
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。 Linux 上 的 CUDA (http://bit.ly/2tUojGa)。 
。 Windows 上 的 CUDA (http:/bitly/2tUoqS6 ) 。 
。 OSX 上 的 CUDA (http://bit.ly/2tUojGa)。 


1.3 监控 GPU 性 能 


在 GPU 上 进行 神经 网 络 训练 之 后 ， 你 可 能 想 了 解 GPU 是 否 正常 工作 及 其 工作 情况 ， 下 一 
节 列 出 了 一 些 帮助 调试 和 监控 GPU 操作 的 资源 。 


NVIDIA 系 统管 理 接口 


安装 NVIDIA 系统 管理 界面 (SMI)。 

















使 用 NVIDIA SMI 
日 志 中 会 有 很 多 信息 ， 你 可 以 在 输出 中 查找 “Java”， 来 更 好 地 了 解 ND4J 在 
做 的 事情 。 
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附录 


解决 DL4J 安 表 上 的 问题 








如 果 运 行 示例 时 出 现任 何 错误 ， 你 需要 排除 一 些 故障 。 下 面 讨论 DL4 的 新 用 户 会 遇 到 的 
一 些 常见 问题 。 


J.1 之 前 安装 过 DL4J 


如 果 你 以 前 安装 过 DL4J， 现 在 发 现 示例 出 现 错误 ， 请 更 新 库 。 使 用 Maven， 只 需 在 pom. 
xml 文件 中 将 版 本 修改 为 Maven Central (https://search.maven.org) 上 的 最 新 版 本 。 如 果 使 
用 源 代 码 编译 ， 你 可 以 依次 在 ND4J、Canova 和 DL4J 上 运行 git clone ， 并 在 三 个 目录 中 


运行 mvn clean instaLL -Dskiptests=true -Dmaven.javadoc.skip=true。 


J.2 从 源 代 码 安装 时 的 内 存 错 误 


随 着 代码 库 的 增长 ， 从 源 代码 安装 需要 更 多 内 存 。 如 果 在 DL4J 构建 过 程 中 遇 到 Permgen 
error， 你 可 能 需要 增加 更 多 的 堆 空间 。 为 此 ， 你 需要 找到 并 修改 隐藏 的 .bash_profile 文 
件 ， 通 过 这 个 文件 将 环境 变量 添加 到 bash。 要 查看 这 些 变量 ， 请 在 命令 行 中 输入 env。 如 
果 要 在 控制 台中 添加 更 多 的 堆 空间 ， 请 输入 以 下 命令 : 


echo "export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=512m"" > ~/.bash_profile 


J.3 ”旧版 本 的 Maven 


旧版 本 的 Maven， 如 3.0.4， 可 能 会 出 现 异常 ， 比 如 NoSsuchMethodError， 可 以 通过 升级 到 
Maven 的 最 新 版 本 〈 本 文 撰写 时 为 3.3.x) 来 解决 这 个 问题 。 要 检查 Maven 版 本 ， 请 在 命 


令 行 中 输入 mvn -v。 
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J.4 Maven 和 PATH 变量 


安装 Maven 后 ， 你 可 能 会 看 到 这 样 的 消息 : 
mvn 没有 被 识别 为 内 部 命令 或 外 部 命令 、 可 执行 程序 或 批 处 理 文件 。 





这 意味 着 你 需要 在 PATH 变量 中 设置 Maven， 你 可 以 像 更 改 其 他 环境 变量 一 样 更 改 这 个 
变量 。 

J.5 不 匹配 的 JDK 版 本 

如 果 看 到 以 下 错误 : 


配置 文件 java8-and-higher 中 无 效 的 JDK 版 本 : 无 界 范围 : 
[1.8, for project com.github.jai-imageio:jai-imageio-core 
com.github.jai-imageio:jai-imageio-core:jar:1.3.0 


这 说 明 在 安装 过 程 中 你 可 能 磁 到 了 一 个 Maven 问题 ， 你 应 该 将 它 更 新 到 3.3.x 版 本 。 


J.6 ”C++ 和 其 他 开发 工具 


为 了 编译 一 些 ND4 依赖 ， 需 要 安装 一 些 用 于 C 和 C++ 的 开发 工具 。 





ND4J 具体 的 说 明 
有 关 具 体 的 说 明 ， 参 见 ND4J 指南 ， 网 址 为 http://nd4j.org/getstarted.html# devtools。 


J.7 Windows 和 包含 路 径 


Java CPP 的 包含 路 径 并 不 总 是 能 在 Windows 上 正常 工作 。 一 种 解决 方法 是 从 微软 Visual 
Studio 的 包含 目录 中 获取 头 文件 并 将 其 放 在 已 安装 的 Java 运行 环境 (JRE) 的 包含 目录 中 。 




















standardio.h 


这 将 影响 standardio.h 等 文件 。 你 可 以 在 http:/nd4j.orgy/getstarted.htmjl#kwindows 
上 找到 更 多 信息 。 








J.8 监控 GPU 


附录 工 提 到 过 ， 可 以 使 用 NVIDIA 系统 管理 接口 (SMI) 来 监控 GPU。 





关于 监控 GPU 的 更 多 帮助 信息 ， 请 访问 http:/nd4j.org/getstarted.html#gpu。 
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J.9 使 用 JVisualVM 

人 们 使 用 Java 的 一 个 主要 原因 是 它 在 JVisualVM 中 预 置 的 诊断 功能 。 在 命令 行 中 输入 
jvisualvm， 系 统 将 本 地 CPU、 堆 、PermGen、 类 和 线程 的 情况 可 视 化 。 

取样 器 视图 

该 工具 的 一 个 有 用 的 视图 是 取样 器 视图 。 在 屏幕 右上 方 ， 单 击 取 样 器 选项 

卡 ， 然 后 选择 CPU 或 内 存 按钮 来 显示 图 像 。 












































J.10 使 用 Clojure 


当 在 Clojure 应 用 程序 中 使 用 deepLearning4j-ntp， 并 通过 Leiningen 构建 uberjar! 时 ， 你 需 
要 在 project.clj 中 指定 以 下 内 容 ， 以 便 正确 地 包含 akka 的 reference.conf 资源 文件 。 


:uberjar-merge-with {#"\.properties$" [slurp str spit] "reference.conf" 
[slurp str spit]} 


(注意 : properties 文件 映射 中 的 第 一 个 条 目 是 通常 的 默认 值 )。 如 果 没 做 好 这 一 点 ， 那 么 运 
行 生成 的 uberjar 时 将 引发 如 下 所 示 的 异常 : 


Exception in thread "main" com.typesafe.config.ConfigException$Missing: 
No configuration setting found for key 'akka.version' 


J.11 OS X 上 的 浮 点 支持 


OS X 对 学 点 的 支持 是 有 问题 的 。 当 你 运行 我 们 的 示例 ， 期 待 数字 出 现 ， 结 果 却 看 到 NAN 
时 ， 请 将 数据 类 型 切换 到 双 精 度 (double)。 


J.12 Java 7 的 fork-join 漏 洞 


Java 7 中 的 fork-join 有 一 个 漏洞 ， 更 新 到 Java 8 可 以 修复 它 。 如 果 出 现 如 下 所 示 的 
0utofMemory 错误 ， 说 明 fork-join 存在 问题 。 


java.util.concurrent.ExecutionException: java.Lang.0utOfMemoryError ....java.util 
.Concurrent.ForkJoinTask.getThrowableException(ForkJoinTask.java:536) 

















通过 Gitter 获得 在 线 支持 
欢迎 随时 在 我 们 的 Gitter 即时 聊天 (https://gitter.im/deeplearning4j/deeplearning4j) 中 向 
我 们 咨询 错误 信息 。 





注 1: uberjar 指 包含 所 依赖 的 jar 文件 的 巨大 jar。 





译 者 注 
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当 你 提交 问题 时 ， 请 和 包含 以 下 信息 ( 它 真 的 会 加 快 问题 的 解决 1 ) : 
。 操作 系统 (Windows、OS X、Linux) 和 版 本 ; 
。 Java 版 本 ; 
。 Maven 版 本 ; 
栈 信息 。 








下 面 列 出 了 一 些 当 DL4J 示例 不 能 正确 构建 或 运行 时 需要 检查 的 事项 。 


J.13.1 其 他 本 地 库 


确保 你 没有 在 本 地 克隆 其 他 代码 库 。 主 要 的 DL4 代码 库 正在 持续 改进 ， 最 新 的 改进 可 能 
没有 完全 通过 示例 的 测试 。 


J.13.2 检查 Maven 依 赖 
确保 示例 的 所 有 依赖 都 从 Maven 下 载 ， 而 不 是 在 本 地 查找 。 要 删除 旧 的 依赖 ， 请 输入 以 下 




















rm -rf ls ~/.m2/repository/org/deeplearning4j 


J.13.3 重新 安装 依赖 
为 了 从 源 代码 重新 构建 示例 并 确保 其 正确 安装 ， 在 dl4j-0.4-examples 目录 中 输入 以 下 命令 : 


mvn clean install -DskipTests=true -Dmaven.javadoc.skip=true 


J.13.4 ”如 果 出 现 其 他 错误 
如 果 遇 到 问题 ， 首 先 应 该 检查 pom.xml 文件 。 


J.14 不 同 平台 


要 编译 某 些 ND4J 依赖 ， 你 需要 安装 一 些 用 于 C (语言 ) 的 开发 工具 ， 包 括 gcc。 要 检查 是 
否 有 gcc， 请 在 终端 或 命令 提示 符 中 输入 gcc -v。 








TT 











J.14.1 OSX 


某 些 版 本 的 苹果 开发 工具 Xcode 会 为 你 安装 gcc。 如 果 你 还 没有 gcc， 在 命令 提示 符 下 输入 
以 下 命令 : 


brew install gcc 
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J.14.2 Windows 

Windows 用 户 可 能 需要 安装 免费 的 Visual Studio Community， 你 可 以 从 https:/www.visualstudio. 

com/en-us/products/visual-studio-community-vs.aspx 下 载 它 。 

设置 PATH 环境 变量 

你 需要 手动 将 Visual Studio 的 路 径 添 加 到 PATH 环境 变量 ， 路 径 如 下 所 示 : 
C:\Program Files (x86)\Microsoft Visuyal Studio 12.0\VCNbin 





要 通过 命令 提示 符 确 认 是 否 正确 设置 了 Visual Studio 的 路 径 ， 请 输入 以 下 命令 : 
cl 
你 可 能 会 收 到 一 条 消息 ， 通 知 你 某 些 .dl 文件 丢失 。 我 们 要 确保 VS/IDE 文件 夹 在 路 径 中 ( 参 
见 前 面 的 注意 事项 )。 如 果 命 令 提 示 符 返回 cl 命令 的 使 用 信息 ， 那 就 说 明 它 在 正确 的 位 置 。 
1. 设置 Visual Studio 
要 设置 和 配置 Visual Studio， 请 执行 以 下 步骤 。 
(1) 设置 PATH 环境 变量 指向 \bin\ (为 了 使 用 cl.exe 等 ) 。 


(2) 在 对 ND4J 进行 mvn clean iinstall 之 前 ， 还 要 运行 vcvars32.bat (同样 在 bin 中 ) 以 设 
置 环境 〈 它 可 以 避免 到 处 复制 头 文件 ) 。 














VCVvars32 
vcvars32 的 作用 可 能 是 暂时 的 ， 所 以 需要 每 次 在 执行 ND4J 的 mvn install 
之 前 运行 它 。 





在 安装 Visual Studio 和 设置 PATH 变量 之 后 ， 你 需要 运行 vevars32.bat 来 正确 设置 环境 变量 
(INCLUDE、LIB、LIBPATH)， 这 样 就 不 需要 复制 头 文件 了 。 但 如 果 你 从 文件 浏览 器 运 
行 .bat 文件 ， 由 于 设置 是 临时 的 ， 所 以 环境 变量 没有 被 正确 设置 。 因 此 你 需要 在 执行 mvn 
install 的 同一 个 命令 提示 符 窗口 运行 vcvars32.bat， 所 有 环境 变量 都 将 被 正确 设置 。 

下 面 是 设置 它们 的 方法 。 


INCLUDE = C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\include LIB = 
"C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\lib" // 这 样 你 就 可 以 链 
// 接 到 .Lib 文 件 





























记得 点 击 C++ 
使 用 Visual Studio 时 ， 你 还 需要 点 击 C++， 它 不 再 被 默认 设置 。 

















Java CPP 与 Windows 
此 外 ，Java CPP (https://github.com/bytedeco/javacpp) 的 包含 路 径 并 不 总 是 能 
在 Windows 上 正常 工作 。 一 种 解决 方法 是 从 Visual Studio 的 包含 目录 中 获取 
头 文件 并 将 其 放 人 已 安装 的 Java 运行 环境 (JRE) 的 包含 目录 中 ， 这 将 影 
standardio.h 等 文件 。 











可 
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2. 在 64 位 Windows 平 台 上 运行 

你 可 以 从 http://avulanov.blogspot.cz/2014/09/howto-to-run-netlib-javabreeze-in.html 获得 用 于 
64 位 Windows 平台 的 .dll。 

下 载 .dl 库 ， 并 将 它们 放 在 Java 的 bin 文件 夹 下 (如 Ci\prgJavayjdk1.7.0_45\bin)。 


netlib-native_system-win-x86_64.dll 库 依赖: libgce_s_seh-1.dll、libgfortran-3. 
dll、libquadmath-0.dll、libwinpthread-1.dll、libblas3.dll 和 1liblapack3.dll 
(liblapack3.dll 和 libblas3.dll 只 是 重 命名 过 的 libopeblas.dll 的 副本 ) 。 


可 以 从 http:/www.openblas.net/ 下 载 这 些 库 。 








J.14.3 Linux 
如 果 你 使 用 Ubuntu 或 Centos， 那 么 需要 遵循 不 同 的 安装 步骤 。 
1. Ubuntu 


对 于 Ubuntu， 首 先 输 入 : 
sudo apt-get Update 

之 后 ， 你 需要 运行 以 下 命令 的 一 个 版 本 。 
sudo apt-get install linux-headers-$(uname -r) build-essential 

$(uname -r) 根据 Linux 版 本 的 不 同 而 不 同 。 想 确认 你 的 Linux 版 本 ， 可 打开 新 的 终端 窗 
uname -r 

你 会 看 到 类 似 于 这 样 的 输出 : 3.2.0-23-generic。 无 论 看 到 什么 ， 复制 并 粘贴 到 脚本 的 第 


一 行 ， 替 换 $(uname -r)， 然 后 插入 一 个 空格 并 输入 build-essential， 注 意 拼写 。 你 可 以 
按 tab 键 来 补 全 任何 命令 。 
2. Centos 
在 你 的 终端 (或 者 ssh 会 话 )， 以 root 用 户 的 身份 输入 以 下 命令 : 

yum groupinstall 'Development Tools’ 
之 后 你 会 看 到 终端 上 出 现 大 量 的 处 理 和 安装 信息 。 你 可 以 验证 是 否 已 安装 了 某 个 工具 ， 比 
如 对 于 gcc， 在 终端 输入 以 下 代码 : 


gcc --version 











访问 http:/www.cyberciti.biz/faq/centos-linux-install-gcc-c-c-compiler/ 获取 完整 的 指南 。 
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关于 作者 


乔 希 * 帕 特 森 (Josh Patterson) 目前 是 Skymind 公司 领域 工程 的 负责 人 。Josh 曾经 营 过 
一 家 大 数据 /机 器 学 习 /深度 学 习 领 域 的 咨询 公司 。 在 此 之 前 ，Josh 曾 是 Cloudera 公司 的 
通用 解决 方案 架构 师 ， 他 也 曾经 在 田纳西 河流 域 管理 局 担任 过 机 器 学 习 与 分 布 式 系统 工程 
师 ， 在 那里 他 参与 的 openPDC 项 目 将 Hadoop 引入 到 智能 电网 。Josh 在 位 于 查 塔 努 加 市 
的 田纳西 大 学 获得 了 计算 机 科学 硕士 学 位 ， Be 关于 网 状 网 络 (tinyOS) 和 社会 
性 昆虫 优化 算法 的 研究 。Josh 从 事 软 件 开发 超过 17 年 ， 在 开源 领域 非常 活跃 ， 为 DL4J、 
Apache Mahout、Metronome、IterativeReduce、openPDC 和 JIMotif 等 项 目 贡 献 过 代码 。 


亚当 .吉布森 (Adam Gibson) 是 一 位 居住 在 旧金山 的 深度 学 习 专 家 。Adam 曾经 在 财富 
500 强 企 业 、 对 冲 基金 、 公 关公 司 、 创 业 钱 化 器 工作 ， 参 与 机 器 学 习 项 目的 创建 。 他 在 帮 
助 公司 处 理 和 解析 大 量 实 时 数据 方面 有 着 丰富 的 经 验 。 他 从 13 岁 起 就 一 直 是 个 电脑 迷 
通过 http://deeplearning4j.org 为 开源 社区 做 出 了 积极 的 贡献 。 


关于 封面 

本 书 封面 上 的 动物 是 皇 带 鱼 (oarfish 或 Regalecus glesne) ， 一 种 大 型 的 月 鱼 目 (条 铺 鱼 ) 
鱼 类 ， 生 活 于 温带 和 热带 海洋 。 它 们 的 身体 长 且 细 ， 背 鳍 多 刺 。 皇 带鱼 可 长 至 11 米 长 ， 
是 世界 上 最 长 的 硬 骨 鱼 。 

皇 带 鱼 很 少 被 人 类 看 到 。 它 们 大 部 分 时 间 都 生活 在 中 层 海域 (200 米 至 1000 米 水 深 )， 只 


有 在 生病 或 受伤 时 才 会 浮 出 水 面 。 皇 带鱼 是 食肉 动物 ， 主 要 以 浮游 动物 、 小 鱼 、 水 母 和 鲁 
鱼 为 食 。 


皇 带 鱼 的 肉 为 凝 腕 状 ， 所 以 它 不 是 商业 渔民 的 目标 。 通 常 只 有 死去 ” ed 
岸 时 人 类 才 会 见 到 该 物种 。 由 于 其 大 小 和 外 形 ， 人 们 认为 皇 带 鱼 可 能 是 海蛇 传说 的 来 源 。 
它们 的 总 数量 未 知 ， 但 没有 已 知 的 对 皇 带鱼 的 环境 威胁 。 

O?Reilly 出 版 的 图 书 封面 上 的 许多 动物 都 濒临 灭绝 ， 它 们 都 对 世界 很 重要 。 要 了 解 更 多 关 
于 如 何 提供 帮助 的 信息 ， 请 访问 animals.oreilly.com. 
封面 图 片 由 Braukhaus Lexicon 制作 。 
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令 Spark 项 目 管理 委员 会 成 员 作品 
多 注重 技术 实践 ， 通 过 大 量 实例 演示 如 何 创 建 有 用 的 机 器 学 习 系 统 


作者 : RajdeepDua，Manpreet Singh Ghotra，Nick Pentreath 
译 者 : 蔡 立 宇 ， 黄 章 帅 ， 周 济 民 








Python 机 器 学 习 基 础 教程 


令 以 机 器 学 习 算 法 实践 为 重点 ， 使 用 scikit-learn 库 从 头 构建 机 器 学 习 应 用 


作者 : Andreas C. Muller，Sarah Guido 
译 者 : 张 亮 ( hysic ) 





Python 深度 学 习 


令 Keras 之 父 、Google 人 工 智能 研究 员 FrancsoisChollet 执 笔 ， 深 度 学 习 
领域 力作 

4 通俗 易 懂 ， 帮 助 读者 建立 关于 机 器 学 习 和 深度 学 习 核 心思 想 的 直觉 

令 16 开 全 彩印 刷 
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深度 学 习 基础 与 实践 


尽管 人 们 对 机 器 学 习 的 兴趣 达到 了 一 个 高 点 ， 但 过 高 的 期 望 往往 会 使 项 
目 未 及 走 远 就 宣告 失败 。 机 器 学 习 ， 尤 其 是 深度 神经 网 络 ， 如 何 让 你 的 
机 构 真 正 与 众 不 同 ? 这 本 实践 指南 不 仅 围绕 该 主题 提供 了 实用 的 信息 ， 
而 且 帮 助 你 开始 构建 高 效 的 深度 学 习 网 络 。 


本 书 从 调 优 、 并 行 、 向 量化 、 构 建 管道 等 深度 学 习 基 础 知识 开始 ， 逐 步 


深入 ， 通 过 现实 生活 中 的 例子 ， 展 现 深度 网 络 架构 的 方法 和 策略 ， 并 在 
Spark 和 Hadoop 上 使 用 DL4J 运 行 深度 学 习 工 作 流 。 


目 深入 理解 机 器 学 习 和 深度 学 习 基 本 概念 。 

加 了 解 从 神经 网 络 到 深度 网 络 的 演化 历程 。 

加 探索 主流 深度 网 络 架构 ， 包 括 卷 积 神经 网 络 和 循环 神经 网 络 。 

罩 了 解 如 何 将 特定 的 深度 网 络 应 用 于 适合 的 问题 。 

目 全 面 了 解 通用 的 对 神经 网 络 和 特定 深度 网 络 架 构 调 优 的 基础 
知识 。 

目 学 习 针对 不 同类 型 数据 的 向 量化 技术 以 及 如 何在 Spark 和 Hadoop 

台 上 原生 地 使 用 DL4J。 


乔 希 . 帕 特 森 (Josh Patterson)，Skymind 公 司 副 总 裁 ， 曾 任 Cloudera 公 司 


通用 解决 方案 架构 师 、 田 纳西 河流 域 管理 局 机 器 学 习 与 分 布 式 系统 工 
程 师 。 


亚当 .吉布森 (Adam Gibson)，Skymind 公 司 CTO， 在 帮助 公司 处 理 和 解 
析 大 量 实时 数据 方面 经 验 丰富 。 


“这 正 是 我 一 直 在 寻找 的 书 ， 它 酒 


盖 了 Al 开 发 会 用 到 的 几乎 所 有 
方法 。” 
一 一 亚马逊 读者 评论 


“这 本 书 着 重 于 深度 学 习 模型 的 应 


用 ， 并 通过 清晰 易 懂 的 方式 来 
呈现 。” 


-一 亚马逊 读者 评论 





封面 设计 : Karen Montgomery 张 健 


图 灵 社 区 : iTuring.cn 
热线 ， (010)51095183 转 600 
所 和 二 夺 计算 机 /机 器 学 习 / 深 度 学 习 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 
OReilly Media, Inc. 授 权 人 民 邮 电 出 版 社 出 版 
此 简体 中 文 版 仅 限于 中 国 大 陆 (不 包含 中 国 香港 、 澳 门 特别 行政 区 和 中 国 合 湾 地 区 ) 销售 发 行 


This Authorized Edition for sale only in the territory of Peoples Republic of China (excluding 
Hong Kong, Macao and Taiwan) 
























































ISBN 978-7-115-51542-1 
9 lz | 1 | | > 
ISBN 978-7-115-51542-1 
定价 : 119.00 元 





看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


